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sed 与 awk 


sed 和 awk 是 用 户 、 程 序 员 和 管理 员 应 用 的 工具 。 之 所 以 称 为 sed 是 因为 它 是 一 个 流 编辑 
器 (stream editor), 用 于 对 许多 文件 执行 一 系列 的 编辑 操作 :awk 是 根据 它 的 开发 者 Aho、 
Weinberger 和 Kernighan 命名 的 , awk 是 一 种 编程 语言 , 它 可 以 使 你 很 容易 地 处 理 结 构 化 
数据 和 生 成 格式 化 报告 ， 第 二 版 介绍 了 awk 的 POSIX 标准 ， 同 时 介绍 了 一 些 可 免费 使 用 的 以 及 商业 
版 的 awk， 





本 书 在 一 开始 就 给 出 了 一 个 概述 和 指南 ， 论 述 了 从 grep 到 sed 再 到 awk 不 断 改 进 的 功能 。sed 和 awk 
县 有 相同 的 命令 行 语 法 , 以 靶 本 的 形式 接收 用 户 的 命令 . 因为 所 有 这 三 个 程序 都 使 用 UNIX 正则 表达 
式 ， 因 此 书 中 用 一 章 的 篇 幅 来 介绍 UNIX 的 正则 表达 式 语 法 

然后 ， 本 书 介绍 如 何 编写 sed 脚本 。 从 编写 儿 行 简单 的 脚本 开始 ,学 习 进行 手工 编辑 操作 的 其 他 基本 
命令 和 高 级 命令 ， 以 及 由 此 引入 的 简单 程序 结构 。 这 些 高 级 命令 包括 用 于 处 理 保持 空间 、 即 一 个 临时 
缓冲 区 的 命令 ， 

本 书 的 第 二 部 分 经 过 广泛 的 修订 ， 包 括 了 POSIX awk， 以 及 3 个 可 免费 使 用 的 和 3 个 商业 版 的 awk。 
本 书 介 绍 了 awk 语言 的 主要 特点 以 及 如 何 编写 简单 的 脚本 。 你 还 能 了 解 到 : 

。 “通用 的 程序 结构 

。 如 何 使 用 awk 的 内 部 函数 

。 如 何 编写 用 户 定义 函数 

。 awk 程序 的 调试 技术 

， 如 何 开 发 一 个 处 理 索引 的 应 用 程序 ， 该 程序 该 示 了 awk 的 强大 功能 

。 ”得 到 不 同 awk 版 本 的 FTP 和 联系 信息 

本 书 还 包含 了 一 组 用 户 提供 的 程序 ， 这 些 程序 展示 了 广泛 的 sed 和 awk 程序 风格 和 技巧 。 
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《sed 与 awk》 身 夯 上 的 动物 是 首 小 的 懒 猴 。 懒 猴 在 夜间 活动 生活 在 所 上 ， 是 没有 
尾巴 的 爱 长 类 动物 , 有 短 的 、 梯 软 的 毛皮 和 大 而 固 的 眼睛 。 主 要 分 布 在 印度 南部 和 
名 兰 ,在 那里 它们 生活 在 树 上 ,很 少 下 到 地 面 。 可 以 观察 到 它们 向 自己 手 和 足 上 撒 
厌 一 一 这 料 做 是 为 了 在 它们 榴 莒 时 增加 涯 所 使 它们 能 时 握 树 干 ， 并 留 下 气味 的 轨 
迹 。 


这 种 丽 小 的 懒 猴 高 度 为 ? 划 10 英 寸 , 重 醒 为 12 奉 司 或 更 少 。 它 依 硬 哇 水 果 ， 树叶 
和 和 铺 获 小 动物 为 生 。 
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z 
了 路 


本 书 介绍 了 一 组 儿 宁 奇特 的 UNIX 实 用 工具 : sed 和 awKE。 这 组 实用 工具 有 很 多 其 同 
的 特征 ， 司 如 则 表达 式 在 模式 瞻 配 中 的 点 用 等 。 模 式 匹 配 在 sed 和 awk 的 使 用 中 
是 很 重要 的 部 分 ， 因 此 本 书 详 尽 地 解释 了 UNIX 正则 表达 成 的 语法 。 一 般 情况 下 ， 
从 grep 到 sed 和 awk 的 学 习 过 程 是 很 自然 的 ， 所 以 本 书 商 盖 了 上 述 3 个 程序 ， 而 重 
点 华 中 在 sed 和 awk。 


sed 和 awk 是 一 般 用 户 、 相 序 员 和 系统 管理 员 们 处 理 文本 文件 的 有 方 工 具 。 sed 的 各 
字 来 源 于 其 功能 , 它 是 一 个 字符 祺 编辑 器 ( stream editer)， 可 以 很 好 地 完成 对 多 个 
文件 的 -系列 编辑 工作 .awk 的 名 字 来 源 十 它 的 开发 人 Aho、 到 einberger 和 
Kernighan, 它 是 -种 程序 设计 滞 高 ,非常 适合 结构 化 数据 的 处 理 和 格式 化 报表 的 生 
成 。 本 书 强 调 了 awk 的 POSIX 定 叉 。 另 外 ,在 讨 论 awk 的 3 个 可 以 免费 获得 的 版 本 
和 2 个 商业 版 本 以 前 ,本 忆 还 简要 地 描述 了 awk 的 最 初版 本 ,所 有 这 些 版 本 都 实现 
了 awk 的 POSIX 定 交 。 


本 书 的 重点 是 编号 scd 和 awk 脚本 来 抉 速 解 决 用 户 各 种 各 冬 的 问题 。 大 多 数 脚 本 都 
可 以 称 为 “快速 定位 ”。 另 外 , 我 们 还 会 涉及 到 一 些 需要 更 仔细 地 设计 和 开发 ,能够 
解决 较 大 问题 的 脚本 。 


本 书 内 容 


第 一 章 “ 强 大 的 编辑 工具 " ， 是 圣 sed 和 awk 的 特征 和 蕊 能 的 概括 性 描述 。 
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第 一 起 “了 解 基本 操作 ”, 论 寺 了 sed 和 awk 的 基本 操作 , 并 展示 了 克 sed 到 awk 的 
蕊 能 方面 的 进步 。 一 者 共有 相似 的 命令 行 语法 ， 以 靶 本 的 形式 接受 用 户 痢 令 。 

第 三 章 “ 了 解 目 则 表达 式 语 苇 ”， 非 常 详细 地 描述 了 UNIX 止 则 套 达 式 语 法 。 通 常 ， 
新 用 书 会 对 这 些 用 于 模式 匹配 的 奇怪 表 近 式 感 到 无 所 适 从 , 掌 操 正 则 表达 式 语 被 是 
很 重要 的 ， 这 可 以 从 secd 和 awk 中 得 到 更 多 的 东西 。 本 章 中 模式 匹配 的 例子 主要 依 
环 于 grep 和 egrep 。 


第 四 章 “ 编 写 sed 脚本”， 从 本 章 开始 , 用 3 章 的 篇 幅 对 sed 进行 介绍 。 本 总 介绍 了 
那些 只 使 用 儿 个 sed 命令 编 气 简单 的 sed 脚本 的 基本 要 素 。 还 给 出 了 一 个 可 以 简化 
sed 脚本 调用 的 shell 脚本 ， 


第 五 卉 “基本 sed 命令” 和 第 六 章 “高 级 sed 命令 "将 sed 命令 分 成 基本 的 和 高 级 
的 命令 。 基 本 命令 类 似 于 手工 编辑 命令 ， 而 高 级 命令 则 分 绍 简单 的 编程 功能 。 高 级 
命令 包含 对 保留 空间 【一 个 预 留 的 临时 组 冲 区 ) 的 处 理 命令 。 


第 七 章 “ 编 写 awk 脚本 ”， 从 本 章 开 始 ， 用 5 章 的 篇 幅 对 awk 进行 介绍 。 本章 介绍 
了 这 个 脚本 化 语言 的 主要 特征 。 介绍 了 许多 著 本 ， 其 中 包含 修改 司 命 令 输出 结果 的 
著 本 。 


第 八 章 “条 件 、 循 环 和 数组 ”, 描述 了 如 何 使 用 普通 的 得 上 序 设计 结构 ,例如 条 件 、 循 
四 和 煞 组 。 


第 九 章 “ 国 数 ”， 描 述 了 如 何 使 用 awk 的 内 回国 数 以 及 如 何 编写 用 户 定义 的 国 数 。 


第 十 童 “ 底 部 抽 展 ”， 概 述 了 一 组 不 同性 质 的 awk 主题 。 其 中 包括 : 如 何 从 awk 性 
本 中 执行 UNIX 命令 ， 如 何 特 输出 定向 到 文件 和 管道 。 另 外 ,本章 还 提供 了 儿 个 凋 
试 awk 脚本 方面 的 建议 。 


第 十 章 “awk 系列 产品 ”, 描述 了 awk 最初 的 Y7 版 本 . 当前 的 由 尔 实 验 室 的 版 本 ， 
来 上 日 自 由 软件 联盟 的 GNU awk (gawk)， 以 六 Michael Brennan 编写 的 mawk 竹 。 
后 面 三 者 都 有 可 以 自由 获取 的 产 代 码 。 本 章 还 摘 述 了 两 个 商业 实现 ，MKS awk 和 
Thomsoen Autoermation awk (tawk)， 以 及 将 业 亿 awk 的 功能 带 到 Wisual Basic 环境 
的 VSAWK。 


第 十 二 浊 “ 综 合 应 用 ”， 给 出 了 帅 个 较 长 的 、 更 加 复杂 的 awk 著 本 ， 它 们 共同 印证 


了 这 种 语言 的 儿 平 所 有 特征 。 第 一 个 脚本 是 交互 式 拼 号 检查 程序 。 第 二 个 脚本 则 处 
理 和 格式 化 一 本 书 的 索引 或 : 套 书 的 主 索 引 。 











第 十 二 前 “脚本 的 i 总 ”, 给 出 了 用 户 提供 的 许多 脚 林 ， 展 二 了 编 扎 sed 和 awk 脚本 
的 不 同 的 风格 和 技术 ， 


附 示 一 “sed 快速 参 疼 ”， 基 描述 sed 的 命令 和 命令 行 选 项 的 快速 套 考 。 
附录 - “awk 快速 参 蔡 ”， 是 awk 的 命令 行 选 项 和 马 脚 本 语言 完整 描述 的 快速 参考 。 


附录 三 “第 十 二 章 的 补充 ”， 给 出 了 第 十 “ 章 描 述 的 spelleheck,awk 脚本 和 
masterihdex shell 脚本 的 完整 清单 ， 


sed 和 awk 的 实用 性 


sed 和 awk 是 Yersion 7 UNIX 《也 称 为 V7 或 第 七 版 ) 的 一 部 分 ， 共 那 时 起 它们 就 
成 为 标 崔 发 布 的 :部 分 。sed 自从 被 提出 以 来 就 没 改动 过 。 


白山 软件 联盟 GNU 项 目的 sed 版 本 是 可 以 白 由 获取 的 (从 技术 上 讲 虽 然 没 有 放 在 公 
共 域 中 )。GNU sed 的 源 代 码 可 以 通过 匿名 的 FTP【 注 1) 从 六 pgnt 姑 让 ed 上 得 
到 ,， 它 存 在 于 文件 jgnysed-2.05.Jergz 中 。 这 是 利用 人 让 程 序 虑 缩 的 tar 文 件 ， 
gzip 的 源 代码 可 以 在 相同 的 目 孙 于 得 到 。 合 球 有 许多 基点 对 十 GNU 发 布 站 点 的 文件 
做 了 “镜像 如 果 你 短 道 高 你 最 近 的 站 点 ,就 可 以 从 那 得 到 这 些 文件 。 注意 要 使 用 
“binary” 或 “image” 模 式 传送 这 些 文件 。 

1985 年 ,awk 的 作者 对 awk 和 做 了 扩 讽 ， 汝 加 了 许多 有 用 的 特征 。 可 懂 的 是 , 儿 年 以 
来 这 个 新 版 本 一 起 只 存在 于 ATE&&T 系 统 中 。 从 Release 3.1 开始 它 成 为 UNIX System 
Y 的 一 部 分 。 新 的 awk 名 为 hawk， 旧版 本 仍然 保留 原来 的 和 名字。System V Release 
4 系统 也 是 这 样 。 


亲 商 业 的 UNIX 系统 【例如 来 自 Hewlett-Packard、Sun、IBM、Digital 和 其 他 的 系 
统 ) 来 说 ， 命 名 情况 变 得 更 复杂 了 。 所 有 这 些 系 统 都 有 -- 些 肯 的 和 新 的 awk 版 本 ， 
但 是 每 个 厂商 为 程序 的 命名 都 不 同 。 有 的 为 oawk 和 awk， 有 的 为 awk 和 nawkt。 我 











证 芋 如 采 不 能 访问 Intetnet 并 卫 还 希望 捍 到 站 NU sedu 刘 本， 请 联系 Free Sofrware 
Foundatjion, Inc.，59 Tetnpie Place， Suite 3310，Boston, MA 0D2111-1307 本 .5. 和 点 。 电 话 
号 轴 是 1-617-542-5942， 传 真 导 是 1-617-542-2652，。 


吧 


4 可 前 








们 能 够 棍 供 的 最 好 的 建议 就 是 检查 本 地 文档 { 广 2), 在 本 书 中 , 使 讲 术 语 awk 来 描 
述 POSIX awk,， 特 殊 的 实现 则 通过 名字 来 引用 , 例如 “gawk” 或 “Bell Labs awk”。 
第 十 一 章 讨 论 了 3 个 可 自由 未 取 的 awk (包括 从 什么 地 方 可 以 得 到 它们 } 以 及 儿 个 
商业 版 本 ， 





注意 : 日 从 本 书 的 第 一 版 以 来 ,awk 语言 已 结 变 标准 化 为 PDSIX Command Language 和 Utilities 
Siandard {P1003.2)1 的 -部 分 。 所 有 现代 的 awk 实现 都 所 上 与 PosI 慌 标准 莫 容 。 


P1003 2 标准 混合 了 来 自 新 的 awk 利 | gawk 的 特征 。 在 本 书 中 ， 你 可 以 认为 ， 对 POSIX 
ak 的 一 个 实现 基 对 的 东西 对 另 -个 实现 也 是 对 的 ， 除 非 广 册 是 特别 的 版 本 。 





DOS 版 本 


gawk、mawk 和 GNU sed 已 经 移植 到 DOS8 系统 。 在 主 GNU 发 布 站 点 上 有 这 些 程 序 
的 DODS 版 本 的 文件 。 另 外 ，8gawF 口 经 移植 到 DSA2、VMS 和 Atari 与 Amiga 微型 计 
算 机 系统 中 ， 移 植 到 其 他 系统 (Macintosh 、Windows) 的 工作 也 正在 进行 。 


egPeB、sed 和 awk 可 以 作为 MKS 工具 包 【Nortice Kem Systems, Inc.，Ontario， 
Canada) 的 一 部 分 用 于 基于 MS-DOS 的 机 器 。 它 们 的 awk 实现 支持 POSIX awk 的 
特征 。 


MKS 二 具 包 还 包括 Korm shell， 这 意味 着 为 UNIX 系统 上 的 Hourne shell 妃 写 的 许 
多 sheil 脚本 都 可 以 在 PC 上 运行 ,而 MKS 上 具 包 的 大 多 数 用 户 可 能 已 经 发 现 了 这 
些 UNIX 中 的 工具 , 我 们 希望 这 些 程序 的 好 处 对 那些 没有 大 有 地 进 人 人 UNIX 的 PC 用 
户 来 说 也 大 显而易见 的 。 


Thompson AuUtomation Software 【 注 3) 有 一 个 用 于 UNIX、DPOS 和 Microseft 
Windows 的 awk 编 诺 器 。 这 个 版 本 很 有 意思 ， 它 拥有 用 awk 编写 的 awk 的 -一些 扩 
展 ， 还 包括 :个 用 awk 篇 写 的 awk 的 调试 程序 。 


有 时 我 们 也 使 用 PC， 因 为 Ventura Publisher 是 一 个 非常 大 的 格式 化 软件 包 。 我 们 





注 2: 纯化 论 者 将 疡 的 awk 同音 地 称 为 “日 古 区” ， 这 个 新 的 awk 打算 政 代 最 初 的 aWI 可 是 ， 
由 发 布 以 来 几 平 已 经 10 年 了 ， 却 还 是 没有 取 低 。 


注 卫 5616SW Jefferson, Portland, DOR 97221 U.S.A.. 音 美国 电话 为 1-800.944-0139.， 在 其 
他 地 方 电话 为 1-503-224-1639。 





喜欢 它 的 原因 之 是 可 以 连续 使 用 必 创 建 和 编辑 文本 文件 , 并 使 用 sed 编 写 用 于 编 
辑 工 作 的 有 闭 本 。 我 们 兽 使 用 sed 编写 转换 程序 ， 从 而 将 treff 宏 转 换 成 Ventura 样式 
表 标 签 。 我 们 还 利用 它 在 批 处 理 方式 下 播 人 标签 。 这 可 以 省 去 必须 手工 为 文件 中 的 
重复 元 素 加 标签 的 麻 颁 。 


sed 和 awk 对 于 编 气 处 惠 布 阿 的 文件 和 克 式 的 转换 程序 也 非常 有 用 。 


sed 和 awk 的 其 他 依 息 源 


长 时 间 以 来 ， 记 些 实 用 工具 的 主要 信息 源 蚌 包 侣 在 TAX Programmers Gaide 第 2 
着 中 的 两 篇 文章 。 文 章 awk 一 一 4 Pertern Scanning and Processin 有 了 NSHaSel 1978 
年 9 月 1 日 ) 是 由 awk 的 3 个 作者 编号 的 . 在 这 10 页 申 ， 它 提供 了 一 个 简要 的 指南 
并 且 讨 论 了 几 个 设计 和 实现 的 问题 。 文 章 8ED 一 -4 Non-rnreraerfive Texrt 匹 Gitor 
《1978 年 8 月 15 日 ) 由 Lee E,McMahon 编号。 它 是 一 个 参考 ,给 出 了 每 个 功能 的 
完整 描述 ， 并 且 包 含 一 些 很 有 用 的 示例 【使 用 Coleridg 的 Yanadu 作为 示例 输 人 )。 


在 商业 书籍 中 . sed 和 awk 的 最 重要 的 处 理 出 现在 由 Brian W.Kernighan 和 Rob Pike 
合 著 的 4The UNI1X Programmjng Enavironmenty {Prentice-Hall,1984 ) 路 。 标 题 为 
“Filters ”的 章节 不 仅 解释 了 这 些 程序 如 何 工 作 , 而 且 还 展示 了 它们 如 何 一 起 来 构建 
有 用 的 应 用 程序 。 


awk 的 作者 合 著 了 -本 描述 其 增强 版 本 的 书 : 《The 各 WK Programiming Language》 
【Agdqisom-Wesley，1988 )。 它 包含 许多 完整 的 例子 并 且 论 述 了 可 以 应 用 awk 的 广泛 
领域 。 它 遵从 《UNIX Programming Environmenty 的 风 和 烙 ， 有 了 时 对 于 新 用 户 来 说 
杰 难 了 。 书 中 示例 程序 的 源 代 码 可 以 在 me 克 ,beE 扣 bs.co 的 AreiEiBpresearcgy 
Gocokcode 日 录 下 找到 。 


信息 与 技术 POSIX 【Portable Operating System Interface， 可 移植 的 操作 系统 楼 
口 ) 的 了 EEE 标准 第 2 部分: Shell 和 Utility (标准 1003.2-1992)【 注 4) 描述 了 sed 
和 awk【( 注 5)。 这 是 针对 基于 sed 和 awk 编写 的 串 移植 shell 程 序 所 能 提供 的 功能 特 





证 于 据说 部 快 了 3 殿 ! 

广 下 这 个 标准 不 能 在 线 世 取 。 它 可 以 向 IEEE 定购 ， 在 美国 和 加 拿 大 的 电话 为 1-800-678- 
IERE(4333)， 存 其 他 地 方 的 电话 为 1-908-981-0060。 或 者 在 WwWeb 测 览 跨 中 浏 昨 
jgtp ArvrieeeOrsy。 览 用 为 U.S.$228， 包 插 标 准 1003.2d-1994 一 一 AImnermdment | 
for Batch Environments 。IEEE 的 会 页 和 /或 IEEB 协 会 车 受 折 扣 。 


中 





征 的 “官方 " 摘 玉 .因为 awK 本 身 就 是 一 种 程序 设计 语言 , 因此 它 同 样 是 可 移植 awk 
程序 的 害 方 撒 述 .。 

1996 年 ， 自 由 软件 联盟 出 版 了 由 Atraold Robbins 编著 的 《The GNU AwK UseT's 
Guide， 这 是 gawk 的 文档 文件 ， 相 比 Aho、 攻 ernighan 利 | Wreinberger 的 革 ， 它 肝 
用 了 吏 多 实例 教学 的 方式 。 它 有 了 两 个 完整 的 章节 完全 是 示例 ， 并 且 洗 羞耻 POSIX 
awk。 计 书 还 由 SSC 以 有 名 《Effective 入 WWK Programmingy 出 版 ， 而 且 污 书 的 
Texinfo 源 目 于 gawk 的 发 布 ， 

当前 GNTV 版 的 sed 所 存在 的 最 大 不 中 就 是 缺乏 相 点 的 文档 ， 基 至 连 一 页 帮助 页 
(manpage) 都 没有 。 


在 对 UNIX 的 大 多 数 -- 般 性 介绍 中 ， 对 :大 串 实用 工具 的 介绍 时 都 会 提 到 sed 和 
awkK。 这 些 书 中 ，Henry McGilton 和 Rachel Morgan 的 《lntroducing the UNIX 
Systemy 棍 供 了 基本 编辑 技巧 的 最 佳 处 单 ， 包 括 所 有 UNIX 文本 编辑 器 的 使 用 。 


由 本 书 的 原作 者 和 Tim O'Reilly 合 著 的 《UNIX Text Processing 和 【Hayden Books， 
1987) 一 书 完整 地 概述 了 sed 和 awk《( 虽 然 没 有 介绍 awk 的 新 版 本 ).。 那 本 书 的 读者 
会 在 本 书 中 发 现 一 些 章 复 的 部 分 , 但 是 从 总 体 上 讲 这 里 采 放 了 不 同 的 方法 。 但 在 本 
书 中 我 们 将 sed 和 awk 区 别 对 待 , 在 假设 只 有 高 级 用 户 才 会 使 用 awk 工具 的 情况 下 ， 
这 里 我 们 尽量 给 出 与 这 丙 者 彼此 相关 的 程序 , 这 些 不 同 的 工具 ， 可 以 独立 使 用 也 可 
以 相 豆 配合 ， 为 文本 处 理 提供 令 人 兴奋 的 强大 功能 。 


最 后 , 在 1995 年 Usenet 新 闻 组 comp,ieig,e 形 成 了 。 如 果 你 在 前 面 棍 到 的 书 厌 中 
没有 找到 自 凯 需要 了 解 的 知识 , 你 可 以 在 新 闻 组 张贴 问题 ， 这 是 一 个 可 能 蓝 得 他 人 
帮助 的 好 和 会 。 


这 个 新 闻 组 会 定期 张贴 :篇 “常见 问题 解答 (FAQ)” 的 文章 。 除 了 回答 有 关 awk 的 
问题 以 外 ，FA 咏 还 列 出 了 许多 站 点 ， 从 那些 站 点 可 以 获得 用 于 不 同系 统 的 不 同 awk 
版 本 的 二 进 制 秩序 .你 可 以 通过 FTP 从 主 宙 rippmiieda 的 万 NBAuseneteomp pang. 
awkifag 文件 中 检索 到 AR。 





示例 程序 


本 书 中 的 示例 程序 最 初 毗 在 运行 AUUX 2.0 (UNIX System V Release 2) 的 Mac 
fci 和 运行 SunOs 4.0 的 SpareStation 1 上 编写 和 测试 的 ， 要 求 POSIX awk 的 程序 
使 用 gawk 3.0.0 和 来 自 Bell Labs FTP 站 点 的 Bell Labs awk 的 August 1994 版 本 进 


蚂 
~ 


前 





行 了 上 重新 测试 【参看 第 十 - 章 有 关 FTP 的 详细 内 容 })。sed 程序 用 SunOS 4.1.3 sed 
和 GNU sed 2.05 进行 了 重新 测试 。 


获取 示例 源 代码 


可 以 通过 从 口 Reilly 六 Associates 的 lnternet 服 务 器 上 获得 本 节 中 程序 的 源 代 码 .。 盯 
书 的 示例 程序 可 以 用 多 种 电子 方式 苑 得 ;: FTP，、Ftpmail、BITETE 和 UUCP。 荫 先 
列 出 的 是 最 便 育 ， 最 快速 和 最 容易 的 方式 。 如 果 你 从 上 至 下 读 取 ， 第 一 个 为 你 工作 
的 可 能 是 最 好 的 。 如 果 你 直接 和 Internaet 相 连 就 使 用 FTP.。 如果 你 被 有 连接 到 Internet 
上 ， 但 是 可 以 和 癌 Internet 站 点 (包括 CompuServe 用 户 ) 发 送 和 按 恢 电子 邮件 , 那 就 
使 用 Ftpmail。 如 果 你 能 够 通过 BITNET 发 送 电 子 邮件 则 使 用 BITFTP。 如 果 上 面 的 
方式 都 不 能 工作 就 使 用 UUCP。 


FTP 


为 了 使 用 FTP， 需 要 一 台 可 以 直接 访问 Internet 的 机 器 ， 以 下 是 一 段 示例 、 黑 体 字 
是 你 应 该 键 人 的 : 


汪 上 EDP ftp .oreiLLY com 

站 DReteO 上 上 LD 记 .CTEITILY .CSRern ， 

2230 FTPE SETVET [VEeLSILOnm 日 .21 Tue Mar 10 22:09:55 ES 1937) reaqyw 。 
TamE 【Cn .zeil1ly .comiyDurname)y :DOnyYcmB 

33 1 总则 让 雪上 工 蕊 可] 有 DSSete 避 er 二 im SEEY1e -mail 5qqrepba aaG Passworod， 
PEasswora:yeournaneeconmain-aane 【在 此 使 用 你 的 用 户 名 和 | 主 本 名 ) 

230 Buest 12gin kaecess 工 2StrLetlone abpPLY。 

下 tp> 习 呈 7BuUbLiehedyAorei11IyAmnuteheLLAaeedawk 2 

250 CD commnana SUccesesful 

5-p> bioary [很 币 要 ， 必 须 为 压缩 文件 指定 一 进 制 传送 方志 ) 

0 六 TYPe Se ce 工 。 

> 向 外 七 理工 口 林 B - 七 济 眶 .可 开 

200 PORT commanQ suUCCesstul ， 

上 58 PETiDnD 卫 1AARY ImDQS 加 引 二 二 局 台 和 和 名 客 上 工 口 I 于 口 工 下 TO 对 昌 ,七 肌 并, 抽 三 。 

也 了 有 下 上 二 站 号 于 全 COnt 折 上 E 上 己 - 

EtDp> quit 

2a1 Seoqbye . 





这 个 文件 是 gzip 不 身 的 tar 档案 文件 ; 通过 键 人 下 面 的 语 知 从 档案 文件 中 提取 这 些 
辫 件 : 


殷 写 gC 私 七 耻 上 CH 日 ,七 怪 工 , 宁 工 | 七 六 工 XV 主 一 


ce 
避 
1 





System V 柔 统 要 求 使 用 下 而 的 tar 命 令 : 


可 ze 和 上 六 FO9gS .ar .gz | 七 a xpE - 


如 果 gzeat 在 你 的 系统 上 不 可 用 ， 就 分 别 使 用 gunzip 和 tar 命令 : 


3 gunzi 记 BPYFOSB -七 8 -器 Z 
六 七 音 天 其 好 丰 也 TO 可 日 .士民 工 


Ftpmalil 


Ftpmail 是 … 个 任何 可 以 向 Inaternet 发 送 或 接收 邮件 的 人 都 可 以 诸 问 的 邮件 服务 器 。 
下 面 介绍 如 和 何 操作 。 要 向 ftpmaii@online.oreilly-eom 发 送 邮 件 ， 在 消息 体 中 ,给 
出 想 要 运行 的 FTP 命 令 。 服务器 将 运行 匿名 的 FTP 并 将 这 些 文件 归 寄 给 你 。 为 了 得 
到 完整 的 帮 有 动 文 件 ， 可 以 发 送 -- 圭 疫 有 主体 并 且 主 体 中 只 有 一 个 单词 “help” 的 邮 
件 。 下 面 给 出 的 是 -全 邮件 对 话 示例 ,这 可 以 使 你 得 到 这 个 例子 。 读 命令 发 送 给 你 
所 选号 孙 中 的 -个 文件 列表 和 请 求 的 示例 文件 。 如 果 这 个 列表 中 有 你 感 兴趣 的 示例 
的 较 新 版 本 ， 孝 么 这 个 列表 是 很 有 用 的 、 
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出 现在 “guit” 后 面 的 邮件 结 昆 处 的 签名 是 可 接受 的 。 


BITFTP 


BITFTP 是 BITNET 上 出 户 的 邮件 服务 器 . 你 可 以 向 它 发 送 请 求 文件 的 电子 邮件 . 而 它 
通过 电子 邮件 为 你 送 回 这 些 文件 . BiTFTP 目前 只 为 那些 直接 在 BITNET、EARN 或 
NetNorth 上 的 节 克 向 它 发 送 邮 件 的 用 户 服务 .为 了 使 用 BITFTP , 同 BITFTP@@PPCC 
发 送 邮 件 暑 包含 你 的 fip 命令。 要 得 到 完整 的 帮助 文件 ,将 了 HELP 做 为 消息 体 发 送 。 
下 面 是 发 送 给 BITFTP 的 消息 体 : 


“个 
吉 











FTRF 开 t 训 .CGz2-11y.Caor NETDzTES 

USER anPT'wTnCLS 

PR3S YeuamneayeuzFost.eau 化 这 里 访 合 省 J mbarret Email 地 十 【 击 布 是 ETITNET 地 址 ) 
RD “PublisheaqdycoreIlly nrshe11， seddwk 2 

了 一 及 

工人 用 

台 E] PPISS .二 二 F .要 了 

总 UT 下 


一 且 你 得 到 了 想 昌 的 文件 , 按照 FTP 中 的 指示 将 档案 文件 中 的 文件 解压 到 相应 的 目 


录 中 。 关 为 你 可 能 不 在 UNIX 系统 上 ， 所 以 你 需 贤 为 系统 效 得 uadecoede、gunzip、 
atob 和 tar 的 版 本。、VMS、DOS 和 Mac 版 本 是 可 用 的 。 


UUCP 


UUCP 事实 上 是 所 有 UNIX 系统 上 的 标准 ， 而 且 适 用 于 IBM 兼容 的 PC 和 Apple 
Macintosh。 这 个 示例 可 以 由 UUCP 通过 调制 解 调 器 从 UUNET 中 获得 ，UUNET 根 
据 固 接 时 间 收 费 。 如 果 你 或 你 的 公司 有 一 个 UUNET 的 账号 ， 那 么 你 就 有 一 个 在 革 
处 通过 UUCP 连接 到 UUNET 的 系统 。 找 到 这 个 系统 并 且 键 人 ， 
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如 果 你 使 用 Bourne 样式 的 shell (sa、Kksh、bash 、zsh 、pdksh) 代替 csh， 球 人 委 可 
以 省 赂 反 斜 本 。 “ 段 时 间 以 后 【一 天 或 更 多 的 时 间 ) 这 个 文件 应 读 出 现在 目录 Asry 
5pooVnuacppuadiicAourname 中 。 如 果 你 没 育 账号 , 但 却 想 要 一 个 以 便 你 能 名 得 到 电 
子 邮 件 , 通过 电话 703-206-5400 有 ULUNET 联 系 。 ApiDFiSRedpreiiyA- 请 .Z 中 包含 
当前 所 有 文件 的 名 称 与 长 鹿 , 用 它 作 为 :个 简 莫 的 鲁 试 文件 是 个 不 错 的 主意 .一 旦 
你 得 到 了 目标 文件 ,按照 FTP 中 的 指示 从 档案 文件 中 将 这 些 文件 解压 缩 。 


排版 约定 


本 书 使 用 下 列 排 版 约定 : 


粗 体 【了 Bolda) 
用 计 语 句 、 轩 数 、 标 识 符 和 程序 名 。 

妊 作 《Perme) 
用 于 出 现在 段 还 中 的 文件 和 昌 录 名 以 及 数据 类 型 ; 当 引 和 新 的 术 话 和 概念 时 ， 
用 于 强调 。 


总 
中 
叫 








等 寅 字体 【Constant widthy》 
在 示例 中 用 于 表示 文件 的 内 容 或 来 自命 令 的 输出 。 

等 宽 衬 体 粗 体 【Conetant Bcla1 
在 秋 例 中 用 来 责 示 用 户 应 逐 字 键 人 的 命令 行 和 内 项 【例如 ， rm foo 表示 正确 
地 键 人 “rm foee”， 就 和 它 出 现在 文本 或 示例 中 的 形式 : 样 )。 

“” 在 解释 性 的 文本 中 用 来 标识 代码 段 ， 系 统 消 息 和 符号 也 用 引号 括 起 有 。 

$ 是 UNIX Bourne she]l 或 Kofn shell 提示 符 。 

[] 在 程序 语法 的 撒 述 中 包围 可 选 的 元 素 《 括 导 本 身 不 用 键 人 ， 除 非 另 外 提 到 )。 
代表 文本 《通常 是 计算 机 输出 1)， 这 是 为 了 清楚 或 节省 空间 而 省 略 的 文本 。 

口 ”标识 一 全 字面 室 格 。 这 个 符号 用 于 示 俩 和 文本 中 以 可 见 的 形式 表示 空格 。 


*。 标识 一 个 字面 TAB 字符 。 这 个 符号 用 于 永 例 和 文本 中 ， 以 可 见 的 形式 表示 制 
坟 符 。 


符号 CTRL-X 或 “ 导 标 识 控制 字符 的 使 用 ，。 洗 表示 当 刍 人 字符 “x” 上 时间 时 竹 住 
“control” 键 。 我 们 还 指示 了 其 他 类 似 的 键 (例如 , 尺 ETURN 表示 回 车 )。 所 有 的 命 
令 行 示例 后 面 都 中 有 RETURN ， 除 非 另 外 说 明 。 


关于 第 二 版 


自从 1990 年 本 书 第 一 次 出 版 以 来 ， 它 就 成 为 DReilly 应 Associates “坚果 ”系列 
中 最 基础 的 一 本 书 。 在 编著 这 本 书后 发 生 了 3 件 重 要 的 事情 。 第 一 件 事 是 sed 的 
POSIX 标准 的 发 布 ， 而 且 更 重要 的 是 awk 的 POSIX 标准 的 发 布 。 第 二 件 事 〈 可 能 
庶 归 了 第 一 件 事 } 是 -- 些 awk 版 机 或 其 他 新 的 awk 版 本 在 所 有 的 现代 UNIX 系 统 { 商 
炎 系 统 和 可 免费 萌 取 的 类 似 UNIX 的 系统 , 例如 NetBSD 、FreeBSD 和 Linux 等 ) 上 
的 广泛 使 用 。 第 三 件 事 是 GNU sed 和 3 全 awk 版 本 的 源 代码 可 用 性 ， 而 不 仅仅 是 
芭 8WK。 





因为 这 些 和 其 他 原因 ，O'Reilly 皮 Associates 认为 这 本 书 和 需要 休 订 。 修 订 的 目的 是 
保持 这 本 书 特 色 的 完整 性 ， 围 绕 POSIX awk 重新 定位 本 书 的 awt 部 分 ， 更 正 错误 
其 使 本 书 跟 上 时 代 。 





我 要 对 口 'Reilly 上 Associates 的 Gigi Estabrocok、Chris Reilley 和 Lenny Muetlner 
所 提供 的 帮助 表示 晤 谢 , 对 Marc Vanuclaif (第 一 版 的 法 语 翻 详 ) 担 供 的 许多 有 益 的 
建议 , 以 及 John Dzubera 的 对 于 第 -版 的 译 证 表示 感谢 。Michael Brennan，Henry 
Spencerf 和 Ozan Yigit 充当 了 这 个 版 本 的 技术 审 校 ， 感 谢 他 们 的 付出 . 特别 要 感谢 
Dzan Yigit 强制 我 -- 华 不 苛 地 进行 测试 。Thompson Automation Softwate 的 Pal 
Thompsen 对 本 书 中 的 修订 恰如其分 地 提供 了 tawk 的 评估 排 由 。Videosoft 的 
Richard Montgomery 为 我 担 供 了 关于 VSAwk 的 信息 。 


下 面 这 些 人 提供 了 第 十 二 章 中 的 脚本 : Jon L.Bentley、Tom Christiansen，Geoff 
areE、RogeT 和 -Cornelius、Rahul Dhesi、Nick Holloway、Norman Joseph 、Wres 
Morsgan、Tom Van Raalte 和 Martin Weitzel。 他 们 的 和 献 是 公认 的 。 


还 兹 感谢 O 〇 Reilly 康 Associates 的 职员 。Nicoele Gibson Arigo 是 产品 编辑 和 项 日 经 
理 . David Sewell 呈 技 术 编 辑 , 而 Chairemarie Fishetr D'Leary 负责 本 书 的 校对 。Jane 
Ellin 和 SherylL Avrach 执行 质 员 控制 检查 ,Seth maislin 编写 索引 。Erik Ray 、Ellen 
Sievyer 和 Lenny Muellner 利 用 工具 创建 本 书 .Chris Reiltery 调 整 插 图 .Naney Priest 
和 Mary Jane 罗 alsh 设计 书 中 的 版 式 ，Edie Freedman 设计 封 曾 ， 


我 的 姻亲 , 西雅图 的 Marshall 和 HElaine Hartholz 特 唱 值 得 感谢 , 因为 他 们 这 -一 个 星 
期 以 来 带 着 我 们 的 孩子 进行 野营 生 话 ,从 而 让 我 在 更 新 的 重 此 阶段 到 得 重大 的 进步 。 


最 后 ， 我 归 感 谢 我 的 伟大 的 喜 二 在 这 个 工程 期 间 所 付出 的 耐心 。 


是 FDI 及 DPpins 


第 一 版 的 致谢 

说 这 本 书 是 期 待 己 么 的 并 不 过 分 。1987 年 的 春 政 ， 我 在 UNIXKAYorld 上 发 表 了 3 篇 
有 关 awk 的 文 间 ,声称 这 些 文章 来 自 即将 出 版 的 “坚果 ”系列 ， 即 《sed 度 awky。 
然而 这 些 话 说 得 大 早 了 。 我 兽 向 Tim O'Reilly 提议 我 将 改编 这 些 文章 并 整理 成 一 本 
书 , 并 且 计划 在 我 的 儿 下 Benjamin 出 生 之 后 就 可 以 在 家 里 开始 工作 . 我 认为 可 以 在 
儿 个 月 的 时 间 之 内 完成 它 。 然 而 , 我 的 儿 了 都 3 岁 了, 我 才 完 成 第 . 份 草稿 。Cathy 
Brennan 和 客户 服务 代表 自从 ENIEAWorld 交 章 发 表 以 来 ,就 一 直 耐 心地 处 理 对 这 本 
节 的 需求 信息 。Cathy 说 她 甚至 计 人 电话 订购 本 书 , 并 且 尼 拆 说 这 本 书 已 经 出 版 了 ， 
鲍 为 他 们 知道 已 色 有 人 该 过 它 了 . 我 点 感谢 她 和 她 的 职员 以 及 那些 田 于 我 而 一 直 在 
等 待 的 读者 。 
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感谢 Tim O'Reilly 创办 了 一 个 伟大 的 公司 ,在 那里 人 人 可 以 很 容易 地 陶 醇 在 大 量 有 
趣 的 工程 中 . 作为 一 个 编辑 ,他 促使 我 完成 这 本 书 ， 但 是 不 多 许 不 经 过 他 的 修改 而 
完成 它 。 照例 ， 他 的 建议 促使 我 努力 完善 这 本 节 。 


感谢 DReilly associates 的 所 有 作者 和 产品 编辑 , 他 们 介绍 了 可 以 利用 sed 和 awk 
解决 的 有 趣 的 问题 。 感 谢 EUie Cutlerf， 他 是 本 书 的 产品 编辑 同时 编写 了 索引 。 感谢 
Lenny Muellner 允许 我 在 整 本 书 中 提 到 他 。 还 要 感谢 Sue Willing 和 Donna 
Weonteiler， 是 由 于 他 们 的 努力 使 这 本 书 进 入 印 剧 过 程 。 感 谢 Chris Reiliey ， 他 制 
作 了 插图 。 惑 谢 第 十 二 章 中 的 层 本 的 个 人 贡献 者 。 还 要 感谢 玉 evin C.Castner，Tim 
Jrvin ，Mark Sechalz ，Alex Humez，Glenn Saito ，Geoff Hagel，Tony Hurson Jerry 
Peek、Mike Tiller 和 Lenny Muellner， 他 们 给 我 发 邮件 指出 排 印 错误 和 其 他 错误 。 


量 后 ， 晤 值得 感谢 的 是 Nancy 和 Katie，Ben 和 Gilenda。 
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二 放 二 二 
建议 与 评论 
本 书 的 内 容 都 经 过 测试 , 尽管 我 们 做 了 最 天 的 努力 , 但 错误 和 上 骸 忽 仍然 是 在 所 难免 
的 。 如 果 你 发 现 有 什么 错误 , 或 者 是 对 将 来 的 版 本 有 什么 建议 ,请 通过 下 面 的 地 址 
告诉 我 
美国 : 

Reilly 履 和 SSociates,Jnc. 


101 MeITIS Street 
Sebastopol, CA 95472 


中 国 : 
100080 北京 市 海 认 区 知春 路 49 号 希 格 玛 会 寅 B 座 8098 室 
抽 某 理 软 件 【北京 ) 有 限 公司 


询 癌 技术 问题 或 对 本 书 的 评论 ， 请 发 电子 邮件 到 : 


六 和 加 六 G 记 OFEiEEYroReE 


忆 DDKRUHESEEOHS 加 Oreilly.eo 


前 言 了 了 








美 十 本 书 我 们 有 -个 网 上 站、 在 那里 我 们 列 出 了 例子 程序 、 趣 误 表 ， 本 书 林 来 版 本 的 
计划 : 


RD OFeiE ,coneataro8sAeG27 
最 后 ， 您 串 以 在 到 定 到 上 找到 我 们 : 


下 站 AAA OPEEEEY GO 


及 熙 AP CC 有 ,CCP 








江 守 | 坠 掌 ， s 第 加 二 
"，” 解 集 有 趣 的 问题 后 
， 字 桂 流 吉 料 器 : * 


.强大 的 编辑 工具 


本 


我 的 雪子 不计 我 天 动力 锯 . 她 怕 我 用 时 会 发 下 意外 。 对 以 我 依靠 手 句 进行 类 位 构 扩 
子 记 样 的 周末 工程 。 然 而 ， 丰 果 我 代 事 本 壬 工作、 那么 我 就 必须 使 用 动 万 饥 。 动 态 
锯 的 速度 和 效 对 多 产 是 很 重要 的 :ID.D.] 


对 于 创建 和 修改 文本 文件 的 人 来 说 ，sed 利 awk 是 编辑 的 动态 工具 。 记 些 工 作 中 所 
做 的 大 部 分 事情 都 可 以 用 文本 编 轿 器 变 下 式 地 完成 。 然 而 ， 使 用 sed 和 awk 在 达 汉 
辣 样 结 册 的 情况 下 可 以 节省 大 量 重复 性 工作 . 


sed 和 awk 是 转 珠 的 ， 它 们 需要 花 有 时 间 来 学习， 但 是 它们 的 功能 将 带 给 你 事 半 芭 广 
的 效果 ， 上 尤其 是 当 文 本 编辑 是 你 的 职 籽 的 正常 组 成 部 分 时 。 


q "一 昌 
解决 有 趣 的 问题 
学习 sed 和 awk 的 主要 动机 是 因为 ,在 解决 文本 编辑 的 一般 问题 时 它们 很 有 用 【 
1)。 有 点 人 【包括 我 广 己 ) 对 某 个 回 题 症 得 乐于 去 解决 ， 取 决 子 该 问题 是 音调 
味 。 如 果 注 我 选择 使 用 Yi 述 是 sed 梁 对 大 旦 文件 进行 -系列 重复 性 编辑 工作 ， 我 选 
择 sed. 因为 对 我 来 说 , 它 可 以 使 这 些 问题 更 加 存 趣 . 我 总 绪 了 一个 解决 方案 以 服 代 





注 上 | 城 铺 鸡 本 节 标 题 体现 了 4 国志 成 的 史话 ， 你 们 生活 在 有 建 的 时 代 ” 和 Tim ORedly 
经 对 我 悦 过 的 话 一 如 果 人 和 们 发 现 一 个 问题 有 趣 就 会 去 解决 它 .[D.D.] 
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重复 -系列 掖 键 。 除 此 之 外 ,一 电 完 成 了 任务 ， 我 会 为 自己 的 隐 明 而 自豪。 好像 有 
了 一 点 魔 广 一 样 ， 省 去 了- ' 些 枯 爆 的 劳动 。 


最 初 , 使 用 sed 和 awk 来 完成 一 项 任务 看 起 来 像 是 需要 很 长 的 时 间 。 在 党 试 儿 次 之 
后 , 你 可 能 还 会 觉得 用 手工 完成 任务 还 更 容易 些 . 和 耐心 点 ! 你 不 但 需要 学 习 如 何 使 
用 sed 和 awk， 而 且 还 要 了 解 在 什么 情况 下 使 用 它们 更 好 。 你 越 精通 ， 解 决 问题 就 
越 快 而 且 也 越 广 。 


你 还 有 机 会 发 现 解决 特殊 问题 的 一 般 方 共 。 你 会 发 现 . 苦 虑 某 种 问题 的 方式 如 果 与 
` 类 和 问题 相关 ， 这 样 就 能 名 设计 出 在 其 他 情况 下 可 以 重用 的 解决 方案 。 


我 们 给 出 了 一 个 示例 (没有 给 出 任何 程序 代 反 ;在 我 们 写 的 书 中 有 : -本 使 用 了 交叉 
引用 命名 模式 ， 即 引用 由 格式 化 软件 〈sqtroft) 定义 和 处 理 。 在 文本 文件 由 ， 对 有 
革 错 误 处 理 一 章 的 引用 可 能 是 按 如 下 方式 编码 的 


vieCeHezreorharnad] 


“CHerrorhand” 是 引用 的 名 字 ，”*[” 和 “]” 是 区 分 引用 和 其 他 文本 的 调用 序列 。 
在 中 心 文件 中 ， 文 档 中 用 于 交 屎 引用 的 名 字 被 定义 为 sgtroff 字符 串 。 例 如 ， 
“CHerrorhand” 被 定义 为 “Chapter 16, Error Handling”(【 像 这 样 使 用 竺 号 误 屎 引 
用 模式 而 不 使 用 显 式 引用 的 优点 是 ， 如 果 梁 加 、 出 除 或 重新 排序 文章 ， 只 需要 编辑 
中 心 误 件 就 可 以 反映 新 的 组 织 结构 )}. 当 用 格式 化 软件 处 理 文档 时 ,引用 被 正确 地 重 
新 解 析 和 扩展 。 





我 们 面临 的 门 题 是 必须 使 用 同样 的 文件 来 创建 本 书 的 在 钱 版 本 。 因 为 不 能 使 用 
sqtroft 格 式 化 软件 ， 所 以 需要 利用 一 些 方式 来 扩展 文件 中 的 交叉 引用 。 杭 名 话说 ， 
就 是 不 希望 文件 中 包含 “\*[CHerrerhand]”, 而 想 要 “CHerrorhand" 引 [用 的 肉 容 。 


解决 这 个 癌 题 有 3 种 可 能 的 方式 : 


1 使 用 文本 编辑 器 查找 所 有 的 引用 并 用 适当 的 文字 串 代替 它们 。 
2 使 用 sed 进行 编辑 工作 。 这 类 似 于 手工 编辑 工作 ， 只 是 比较 快 ， 


3 使 用 awk 编写 “个 程序 :〈a) 用 来 读 取 中 心 文件 , 并 生成 引用 和 名 及 其 定义 的 列 
表 ; 《pb) 读 吧 文档 查找 引用 调用 序列 ; (ec) 查 信 列表 中 引用 的 名 字 并 用 其 定义 
代 杰 它 。 
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第 “种 上 法 明显 地 很 罗 时 【而 及 役 有 趣 !)。 第 一 种 方法 《使 用 sed) 的 优点 是 它 可 
以 创建 一 个 工具 来 完成 这 项 上 作 .。 例如 , 编号 寻找 ”xfCHerrorhand] "并 用 “Chapter 
16、Error Handiing ”来 代 款 它 的 sed 聊 本 相当 简单 。 同 样 的 靶 本 可 用 于 族 改 文档 的 
每 个 文件 。 缺 点 是 这 种 替换 是 硬 编 码 的 ,也 就 是 说 ， 对 于 每 个 交叉 引用 ， 都 需要 编 
写 一 条 命令 来 进行 赫 换 。 第 一 种 廊 著 【使 用 awki 构建 -个 工具 , 这 个 上 只 对 遵循 
这 韩语 法 的 任何 变 多 引用 都 起 作用 .。 这 个 脚本 也 可 以 对 上 其 他 书 中 的 交 吕 引用 进行 
扩展 , 它 特大 天 三 省 你 缩 安 特 殊 相 隐 列 表 的 时 间 。 它 是 这 二 种 方法 中 最 常用 的 解决 
方案 ， 并 由 被 变 让 为 又 可 能 重用 的 工具 . 





解决 问题 中 的 部 分 工作 是 要 知道 构建 娜 种 上 只 。 有 时 sed 脚 作 可 能 是 -个 比较 好 的 
选择 ， 因为 问题 本 身 可 能 无 法 用 awk 进行 处 理 ， 或 者 叮 能 需 棵 非常 乞 长 复杂 的 awk 
其 本 才能 解 识 。 人 必须 贤 记 住 sed 和 awk 对 什么 样 的 应 用 是 最 适合 的 . 





字符 流 编 辑 器 


so 嘻 是个“ 传 变 顽 式 的 ”面向 字符 葛 的 编辑 露 ， 它 和 许多 UNIX 程 序 一 样 , 被 认 蚊 
是 面 襄 字 符 流 的 . 这 是 基 为 输入 流通 过 程序 并 将 输出 可 接送 到 标准 输出 器 。( 例如 ， 
Yi 本 是 面向 字符 流 的 ， 大 多 数 DOS 应 用 程序 出 不 是 )。 输 入 - -最 来 自 文 件 ,， 但 是 也 
可 以 下 接 来 月 键盘 ! 注 2)。 给 出 在 默认 情 训 下 答 出 到 终端 飞人 幕 上 , 但 是 也 可 以 输出 
到 文件 中 。scd 通过 解释 脚本 来 工作 .该 脚本 指定 了 将 要 执 行 的 动作 ， 


sed 提 供 的 功能 好 像 是 灾 巨 专文 本 编 料 的 自然 延伸 .例如 , 它 提供 的 查找 和 替换 穆 序 
可 以 雏 人 多 局 地 应 出 于 单个 文件 或 -组 文件 . 在 处 - :个 特定 文件 中 只 有 出现 一 次 的 术 
尘 时 ,你 可能 不 常 肯 sed ,但 你 会 发 现 利用 它 处 环 很 多 文件 中 的 “系列 修改 是 很 有 用 
的 . 只 要 想到 在 大 约 100 多 个 文件 中 , 处 埋 20 个 布 同 的 编辑 工作 可 以 在 几 分 钟 之 内 
冠 成， 你 加 合 乞 道 sed 的 踢 大 了 。 


使 用 sed 和 网 窟 简单 的 shel 脚本 《或 DOS 中 的 批 处 理 文 件 ) 类 似 ， 可 以 指定 系 
到 顺序 热 行 的 动作 。 有 其 中 的 天 多 数 动作 可 以 在 如 的 内 部 用 手工 来 完成 : 替换 交 本 ， 
吕 除 行 、 插入 新 文本 等 等 。sed 的 优点 是 可 以 在 … 个 地 方 指定 所 有 的 编辑 指令 , 然后 





注 2: 然而 、 这 名 做 并 不 灶 别 有 用 。 
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通过 文件 传递 :次 来 执行 它们 , 你 不 几 进 入 每 个 文件 来 做 每 次 修改 。sed 示 可 以 有 毅 
地 用 于 编辑 非常 让 大 的 文件 ， 而 这 个 文件 利用 交 蕊 此 编辑 进行 处 理 将 会 很 慢 。 


在 创建 和 维护 文档 的 过 程 中 也 经 常会 用 到 sed, 尤 藉 当 文档 由 独立 的 章节 组 成 , 而 且 
每 个 剖 节 艾 存 企 沾 司 的 文件 中 有 时。 通常 ,在 评审 返回 文档 的 草稿 二 后 , 有 许多 修改 
可 以 应用 于 所 有 的 文件 。 例 如 ， 在 坎 件 文档 设计 过 程 中 , 软件 的 名 字 或 它 的 组 件 可 
能 会 改变 ， 你 必须 找到 它们 并 进行 修改 ,使 用 sed 进行 修改 将 是 一 个 非常 简单 的 过 
程 。 


sed 能 够 用 来 保持 整 全 文档 的 一 致 性 .你 可 以 查找 到 某 个 特定 术语 的 所 有 不 同 的 使 用 
方式 并 且 使 它们 变 得 一 化 。 在 通过 troff 进 行 格式 化 之 前 ， 可 以 使 用 sed 插 人 特 白 的 
排版 代码 或 符号 。 例 如 , 利用 sed 可 以 用 ASCIH 字符 代码 取代 前 后 的 双 引 导 (“ 弯 引 
号 ”而 不 是 “ 直 引 号 ”)。 


sed 还 可 以 作为 编辑 过 证 器 使 用 。 换 句 话 岗 , 你 可 以 你 理 输入 文件 并 将 输出 结果 发 送 
到 另 一 个 程序 。 例如 , 你 可 以 使 用 sed 分 析 纯 文 本 文件 并 在 将 输出 送 到 tro 他 进行 格 
式 化 之 前 播 人 tro 香 宏 。 它 名 许 你 动态 {on the fly ) 编辑 《也许 是 临时 的 )。 


作者 或 出 版 尚 可 以 用 sed 编 扎 大 量 的 转换 程序 ， 例 如 ， 将 Scribe 或 了 8 文件 中 的 格 
式 化 代码 转换 成 treff， 或 者 转换 PC 字 处 理 文件 ， 例 如 亚 ordStar。 稍 后 ,我 们 将 看 
到 “信用 在 Yentura Publisher 中 的 和 将 troff 宏 转换 成 样式 表 标 签 的 sed 脚 本 (也许 利 
用 sed 可 以 将 用 某 种 语言 的 语法 编写 的 程序 ， 转 换 盛 具有 另 -种 语言 的 语法 的 程 
序 )。 当 Sun 公司 首次 产生 Xview 时 , 它们 改 布 了 - 些 将 Sunview 程 序 转换 成 Xview 
的 转换 程序 ， 这些 程 序 主要 由 sed 脚本 组 成 ， 可 以 转换 不 同 函 数 的 名 字 。 


sed 拥 有 用 于 构建 更 复杂 的 脚本 的 几 人 基本 的 程序 设计 结构 , 它 在 每 次 多 于 一 行 的 处 
理 能 力 方面 有 限制 。 


除了 最 简单 的 sed 脚 证 外 .几乎 所 有 的 都 是 具 “shell 实 岗 ”中 调用 的 ,shbejl 实现 是 

种 shell 脚本 ， 它 调用 sed 而 且 还 包含 sed 执行 的 命令 。shell 实现 是 -个 命名 和 执 
行 单字 命令 的 简单 方式 。 使 用 这 个 命令 的 用 户 其 至 不 需要 知道 sed 正在 被 使 用 。 一 
全 shell 包装 器 的 例子 如 Phease 脚本 〔 在 本 书后 面 我 们 将 看 到 这 个 丢 本 )。 它 允许 
你 中 配 包 含 两 行 的 模式 ， 寻 址 grep 的 特殊 限制 。 
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使 用 sed 的 小 结 : 


1 在 :个 战 多 个 交 什 上 所 动 实现 编辑 操作 。 
2 ， 箱 化 对 多 个 文体 执行 相同 的 编辑 处 地 了 作 . 
3 编号 转换 程序 。 


口 + 门 ET 一 
模式 匹配 的 程序 设计 语言 
将 awk 称 为 程 序 设计 诗 癌 会 吓 跑 - 些 人 .如果 你 是 其 中 之 :， 可 以 把 awk 看 做 是 解 
雇 问 题 的 :种 不 同方 法 , 即 利用 这 种 方 只 可 以 对 计算 机 所 要 做 的 事情 增加 更 多 的 棒 
制 。 





sed 很 容易 被 看 成 是 与 变 蔚 民 编 辑 相反 的 释 序 , scd 称 序 与 如 何 和 手动 地 应用 编辑 命令 
是 很 相近 的 .sed 限 制 你 利用 在 文本 编 轿 圳 中 使 用 的 方法 。awk 为 处 理 文件 禄 供 了 更 
- 般 的 计算 模型 。 


awk 程序 的 素 型 林 倒 是 将 数据 转换 成 格式 化 的 殷 玫 。 这 些 数 据 可 能 是 用 UNIX 程序 
( 例 站 nucp ) 产生 的 日 志文 件 , 而 且 报 袁 以 种 对 系统 管理 员 有 用 的 樟 成 将 数据 汇 
总 . 中 :个 例子 是 由 独立 的 迷 插 需 和 数据 检索 程序 组 成 的 数据 处 理应 用 程序 。 数据 
项 是 以 结构 化 方式 记录 数据 的 过 程 .数据 检索 是 从 文件 中 提取 数据 并 频 成 报告 的 过 
程 ， 


所 有 这 些 操作 的 关键 是 数据 拥有 某 种 结构 . 我 们 可 以 利用 衣柜 来 类 比 解释 它 。 胡 柜 
由 多 个 抽 层 组 成 等 个 抽 野 都 放 人 - 些 特定 的 内 容 ; 一 个 抽 屈 里 是 握 袜 ， 另 一 个 抽 
展 是 内 胡 , 第 三 个 抽 懂 古 运 动 衫 . 有 时 抽 展 里 可 以 分 卫 碟 几 个 隔 间 并 将 不 同 种 类 的 
东西 存放 在 -起 。 这 些 就 是 决定 了 东西 族 在 娜 里 的 结 梅 ,， 当 你 挑选 要 站 去 洗 的 东西 
以 及 当 你 要 穿 衣 服 时 ， 就 可 以 在 它们 所 在 的 地 方 找到 。awk 充 许 你 在 编写 放 进 和 拿 
出 东西 的 程序 中 使 用 文本 文件 结构 。 


因此 ， 当 数据 拥有 其 种 结构 时 就 能 最 好 二 体现 awk 的 好 处 。 文本 文件 的 结构 或 松 或 
紧 . 包含 主 要 的 节 和 次 将 的 节 的 一 章 也 大 -种 结构 。 我 们 将 看 到 一 个 脚本 ， 用 寺 提 
事 章 节 慰 题 并 将 它们 编号 以 生成 -个 人 网 , 由 制 表 符 分 醒 的 列 项 旦 所 组 成 的 表 是 高 
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度 结 构 化 的 。 可 以 使 用 awk 了 驳 本 对 数据 的 列 重新 排序 ， 甚 至 可 以 将 列 变 成 行 以 及 将 
行 变 成 列 。 


和 sed 脚本 一 样 ，awk 脚本 一 般 是 利用 shell 包 装 办 来 调用 。shel 包装 器 是 一 个 shel 
脚本 ， 它 通 委 了 包 售 调用 awk 的 命令 行 以 及 awk 解释 的 脚本 。 简 单 的 - 行 awk 翔 本 可 
以 从 命令 行 输入 。 


下 面 是 awk 能 够 完成 的 一 些 功能 


。 ”将 文本 文件 看 做 由 记录 和 学 段 组 成 的 文本 数据 库 。 
s。 ”使 用 变量 操作 数据 库 。 

*。 ”使 用 算术 和 字符 种 操作 符 。 

。 ”使 用 普通 的 程序 设计 结构 ， 例 如 循环 和 条 性 。 

* ”生成 格式 化 报告 ， 

。 ” 定 交 函数 。 

* 从 脚本 中 执行 UNIX 命令 。 

s。 处 理 UNIX 命令 的 结果 。 

*。 ”更 加 巧妙 地 处 理 命 令 行 的 参数 。 

”更 容易 地 处 理 多 个 输 人 流 。 

内 于 这 些 特征 , 用 户 可 以 根据 awk 所 具有 的 能 力 和 适用 范围 来 处 理由 shell 脚 本 执行 


的 各 种 任务 。 在 本 书 中 , 你 将 看 到 一 个 基于 菜单 的 命令 生成 器 ， 一 个 交互 式 拼写 检 
查 器 和 “个 索引 处 理 程序 的 示例 ， 所 有 这 些 示 例 都 使 用 了 上 面 提 到 的 功能 


awk 的 功能 将 文本 编辑 的 思想 扩展 到 计算 ,使 它 硼 可 执 行 各 种 数据 处 理 任务 ， 包 
括 分 析 、 提 取 和 数据 报告 。 实 际 上 ,这 是 awk 的 最 普通 的 用 法 ,但 是 也 有 许多 不 常 
夸 用 的 应 用 : awk 剖 被 用 来 编写 Lisp 解释 程 床 ， 甚 至 是 编译 程序 | 
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掌握 sed 和 awk 的 四 个 障碍 


有 许多 介绍 UNIX 的 书 都 可 以 让 你 了 解 sed 利 Lawk。 本 书 的 日 的 是 帮助 你 以 最 快 和 
最 容易 的 方式 更 进一步 掌握 sed 和 awk。 





在 掌握 sed 和 awk 的 过 程 中 看 在 四 个 撞 竹 ， 你 必须 学 会 : 


1. 


如 何 使 用 sed 和 awk， 清除 这 个 陈 伍 相对 容易 ， 因 为 sed 和 awk 的 工作 方式 类 
似 , 部 其 于 行 编辑 器 ea, 第 一 意 “ 了 解 基本 操作 ” 烤 述 了 使 用 sed 和 awk 的 机 
制 ， 


虎 币 UNI 屋 正则 表达 上 民 请 法 。 使 用 UNIX 正则 表达 式 洁 法 进行 模式 瑟 配 是 sed 
和 awk 此 有 的 特征 , 村 许多 其 他 的 UNTX 程序 也 一 样 . 记 是 一 个 较 困难 的 障碍 ， 
原因 和 此 个 : 语法 旦 神秘 的 ,虽然 许 多 人 都 有 使 用 正则 表达 蕊 的 经 验 , 介 是 很 
少 有 人 能 完全 掌握 语 站 。 对 语法 的 使 用 越 熟 释 , 那么 对 sed 和 awk 的 使 用 也 越 
容易 . 这 就 上 巧 我 们 为 什么 要 化 大 量 时 间 在 第 二 章 “ 了 解 正则 表达 式 诸 法 * 中 讨 
论 正 则 表达 区 的 原因 。 

如 何 与 shell 进行 灾 互 。 当 与 sed 和 ay 上 木 身 不 直接 相关 时 ， 管 理 与 shell 命令 
的 父 互 是 “个 采 难 的 问题 ， 因 为 shell 与 两 个 程序 共享 大 量 特殊 的 字符 。 如 果 
可以 的 话 , 道 过 在 独 立 的 文件 中 放置 野 林 来 避免 这 种 问题 。 如 果 不 行 的 话 , 就 
为 脚本 使 用 兼容 的 Bourne shellt 引用 规则 更 加 直观 ), 并 使 用 单 引 号 包含 你 的 
脚本 。 如 果 将 csh 作为 你 的 交互 式 shell, 记 和 住 间 用 反 和 斜 线 ("V”) 转 义 感叹 号 。 
没有 其 他 的 方式 能 让 esh 则 管 感叹 号 【《 注 3)。 


脚 森 编 气 的 技巧 。 这 过节 困难 的 ,这 就 像 跨栏 竞赛 中 的 高 栏 。 因 此 ,本 书 大 部 
分 都 介绍 脚本 编写 .使 用 sed， 你 必须 了 解 组 单字 母 的 命令 。 使 用 awk， 你 
必须 了 解 程序 设计 语言 的 语 多。 要 掌握 肝 木 编号 的 技巧 ,不仅 必须 福音 大 量 的 
示例 ， 而 且 必 须 亲 自 党 试 编写 肝 本 。 





如 果 你 正 进 行 跨 恬 竞赛 , 只 是 餐 过 跨栏 并 不 能 赢得 竞赛 ,而 需要 的 是 快速 跃 过 它们 
才能 赢得 比赛 ,在 编 邱 脚本 中 ,学 习 脚本 化 命令 集 或 语言 只 是 简单 地 “ 跌 过 了 跨栏 "， 
可 让 你 的 靶 本 处 理 问 题 更 有 趣 ， 就 要 获得 在 竞赛 中 跑 得 更 快 的 能 力 。 





运 卫 





本 坟 设 置 histehars 变星。 季风 csh 帮助 页 。 
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如 果 你 正 归 平 始 学 习 sed 和 awk， 最 好 从 了 和 解 它 们 的 共同 点 人 和 于: 


。， 它们 孝 使 用 相 似 的 语法 炒 调 用 。 


*。， 它们 都 是 面向 宁 符 流 揭 .都 是 从 文本 文件 中 次 -一行 地 于 哺 输入, 并 将 输出 直 
接送 到 奈 崔 输出 端 。 


a 宅 们 都 使 用 正则 表达 式 进 行 神 式 匹 晓 。 
= 和 芝 们 允许 用 户 在 肚 本 中 指定 指令 。 





它们 有 如 此 多 的 共同 点 ， 原 因 之 是 它们 都 起 旅 十 相同 的 行 编 耕 器 一 电 。 在 这 
一 章 中 , 我 们 首先 对 ed 做 简短 介绍 , 再 介绍 sed 利 awk 是 如 何 一 步 步 形成 可 编程 的 
编辑 器 的 。 


sed 看 1aw 攻 的 区 则 在 于 它们 控制 所 向 的 上 作 时 所 用 的 指令 不 同 。 这 是 -个 主要 的 区 
别 ， 而 有 L 这 影响 了 这 些 程序 最 适 十 处 理 的 任务 类 型 。 


可 上 新 将 介绍 seda 利 awk 的 命令 行 语法 敌 本 的 基本 结构 。 还 使 用 邮件 列表 提供 了 一 
不 指南 , 这 将 会 为 你 编号 脚本 提供 一 定 的 感性 认识 . 在 集中 理解 sed 和 awkx 乙 前 , 先 
人 阅读 它们 的 脚本 是 很 有 价值 的 。 
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awk 起 源 于 sed 和 grep 而 不 是 ed 


可 以 将 awk 的 起 源 追 溯 到 sed 和 grep, 并 且 经 由 这 两 个 程序 追 讲 到 ed (最 初 的 UNIX 
行 编 和 器 )。 


如 朱 使 用 过 行 编辑 器 , 那么 理解 sed 和 awk 的 行 定位 就 会 晶 容 易 . 如 果 使 用 过 i (全 
屏幕 的 编辑 器 ) ,那么 你 一 定 谢 悉 由 底 必 的 行 编辑 器 ex ( 它 依 次 是 ed 中 的 特征 的 扩 
展 集 衍生 的 大 量 命 令 。 


我 们 来 看 一 些 使 用 行 编辑 器 ed 的 基本 操作 . 不 要 所 心 , 这 只 是 帮助 你 了 解 sed 和 awk 
的 练习 , 而 不 是 想 让 你 相信 行 编辑 器 的 奇妙 .。 这 个 练习 小 出 现 的 所 命令 和 稍 后 要 学 
到 的 sed 命 令 相同 .你 可 以 自由 地 使 用 ed 做 实验 , 以 便 对 它 如 何 工作 有 .个 了 解 (如 
果 你 已 经 很 熟 古 ed， 可 以 直接 点 到 下 : 节 )。 


使 用 行 编辑 器 ,每 次 可 以 处 理 - - 行 。 知 道 处 于 文件 中 的 哪 一 行 是 很 重 交 的 。 当 使 用 
ea 打开 文件 时 ， 必 显示 了 文件 中 的 字符 个 数 并 定位 在 最 后 行 。 


4 8 七 日 BE 
了 3 


没有 旭 示 符 。 如果 输入 了 ed 不 理解 的 命令 , 它 将 打印 一 个 问号 作为 错误 消息 。 可 以 
输入 打印 命令 p 来 显示 当前 的 行 。 


下 
也 EL en 十 he 二 Lrst baex。 


默认 情况 下 ， -个 命令 只 影响 当前 的 行 。 要 进行 一 萄 编辑 工作 , 首先 更 移 至 想 要 编 
辑 的 行 ， 然 后 点 用 相应 的 命令 。 要 移 到 某 一 行 ， 就 要 指定 它 的 地 址 (address)。- 一 
个 地 址 可 以 由 一 个 行 吨 ， 一 个 指 取 文件 中 桂 定 位 置 的 符号 或 -个 正则 表达 武 组成。 
通过 输 人 行 导 1 可 以 转 到 第 - 行 ， 然 后 输 和 人 删除 命令 来 删除 那 - 行 。 

王 


YeL mighL thirk of aa Tegular exBtression 
二 


输入 “1” 使 第 “ 行 成 为 当前 行 . 并 在 屏幕 上 显示 它 。ed 中 的 删除 命令 是 由, 上 例 中 
是 删除 当前 行 。 与 移 至 某 行 然 后 再 对 它 进 行 编辑 市 同 的 是 , 可 以 将 标识 命令 对 象 的 
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某 : 行 或 其 些 行 的 地 址 ， 才 在 纺 辑 命令 的 前 面 作为 编辑 命令 的 前 组 。 例如， 如 果 输 
人 “1da”， 那 么 第 行 就 被 删除 ， 


还 可 以 将 一 个 止 出 表达 女人 作为 一 个 地 址 。 为 了 删除 包含 单词 “regular” 的 行 ， 可 以 
使 用 了 面 的 命令 : 


ereeuLarr79 


其 中 的 斜 杠 界定 的 对 象 是 正则 表达 式 ,tegular" 尾 想 要 匹配 的 字符 串 。 这 个 命令 剧 
除 和 包含“regular” 的 第 一 行 并 且 使 跟 在 它 后 面 的 这 “ 行 成 为 当前 行 ， 





注意 : 确信 你 已 经 理解 了 使 用 删 路 命令 米 届 除 整 个 行 ， 它 不 只 是 再 除 那 : 行 上 的 单词 
“reguUlar” 。 














要 删除 包含 这 个 正则 袁 达 式 的 所 有 行 ， 可 以 在 命令 前 面 加 上 字母 多 ， 表 示 读 命令 是 
一 个 全局 命令 。 


| 
多 局 命令 使 上 匹 陋 正则 表达 式 的 所 有 行 成 为 特定 命令 的 对 象 。 
略 今 为 止 你 只 接触 到 了 删除 文 本 。 替代 文本 【用 文本 中 的 -部 分 取代 另 -一 部 分 ) 更 
有 趣 。ed 中 的 替换 命令 s 是 


.BgQress]syparrerarrecTsCemeDnE7 Ia 


Pattema 基 一 个 正则 表 和 这 式 , 并 用 repiecemema 趟 代 当 前 行 中 与 这 个 正则 表 运 式 匹 配 
的 字符 串 。 例 如 , 下 面 的 命令 用 “complex" 取代 当前 行 上 第 :次 出 现 的 “regular”。 


号 7 工 全 全 册 上 二 TY DIEPBTEXKY 


由 于 没有 指定 地 址 ,所 以 它 只 影响 当前 行 肯 第 一 次 出 更。 如 果 在 当前 行 上 温 有 找 
到 “reguliar” 则 出 现 一 个 错误 。 为 了 寻找 同行 上 的 多 次 出 现 ， 必 须 指定 g 作为 标 
志 : 


sregGuUiarrcomplex 可 


了 了 解 泰 本 襟 作 和 2 





这 个 命令 改变 了 当前 行 上 的 所 有 的 山 现 。 必须 指定 地 址 从 市 合 该 命 令 不 只 是 对 当前 
行 操作 。 下 项 的 替换 命令 指定 了 -个 地 直 : 


1 工人 T TD Ce 可 
这 个 命令 影响 文件 中 与 这 个 地 址 匹配 的 第 一 行 。 记 住 ， 第 一 个 “regular” 是 一 个 地 


址 ， 第 一 个 是 所 本 替换 命令 的 模式 。 要 将 它 应 用 于 所 有 的 行 ， 才 须 使 用 全 局 命令 ， 
即 人 在 地 址 前 放置 g: 





可 ”TSE 可 凡 d GT， 2OTE Te 


现在 ， 这 个 等 换 应 用 于 所 有 的 地 方 ， 即 所 有 行 上 的 所 有 出 现 。 





注意 : 注意 “8g ”的 不 同 信义 。 开 和 始 处 的 “g ”是 全 局 命令 .意味 兰 对 所 有 与 地 址 号 配 的 行进 行 
改变 。 结尾 处 的 “g” 大 一 个 标志 ， 春 味 着 改变 一 行 上 的 每 个 出 珊 ， 不 只 是 第 一 个 。 





地 址 和 模式 不 必 相 同 。 例 如 : 
可 ”YeOL1ar EXPFeSsSiony syregULarAcomrpTexy 林 


表示 在 包含 字符 串 “regular expression” 的 任 春 行 上 , 用 “complex” 代替 “regular”。 
如 果 地 址 和 模式 相同 ， 那 么 可 以 通过 指定 两 个 连续 的 定 界 符 【A) 来 告诉 ed。 


名 TGSUJTaT seeemP1Lexy 可 
在 这 个 例子 中 ,“regular” 被 指定 为 “地 址 ? ， 同 时 应 用 相应 的 地 下 号 配 桂 换 模式 。 


这 些 命 令 中 有 大 量 的 内 容 需 要 掌握 , 然而 看 上 去 我 们 对 这 些 命令 的 介绍 却 只 旦 带 
谭 过 ,不 要 担心 ， 稍 后 还 要 讲 到 这 些 命令 ， 





类 似 的 UNIX 实 用 工具 grep 来 源 于 电 中 的 下 面 的 全 局 命令 : 
可 Te 


它 表 示 “ 全 局 正则 表达 式 打 印 "*。grep 是 从 ed 中 提取 并 可 用 做 外 部 程序 的 行 编辑 命 
信 。 它 是 执行 一 个 编辑 命令 的 “ 硬 连 接 (hard-wired}” 将 正则 表达 式 作为 命令 行 
上 的 -个 参数 并 将 它 用 做 要 打印 的 行 的 地 址 。 如 下 俩 所 示 ， 寻 找 匹 配 “box” 的 行 


可 工人 PPOX 二 全日 
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TY 55 DoxeE5, -he 工 -TSL CE GDe1 辣 “" 丰 1 
1abel cr fne 于:ret bex。 


它 打 印 苇 配 正 则 表达 式 的 所 有 的 行 。 


ed 的 :个 更 有 趣 的 特征 是 郑 本 化 编辑 工作 的 能 力 , 将 编辑 命令 放 在 独立 的 文 任 中 并 
将 它们 作为 行 编辑 器 的 和 输入。 例如, 如 果 将 :系列 命令 旋 到 名 为 ed-script 的 文件 中 ， 
下 面 的 命令 将 执行 这 个 脚本 : 


号 避 下 和 BT < 日 -SCLIDY 


这 个 特征 使 成 为 可 编程 的 编辑 器 ,也 就 是 说 ,你 可 以 脚本 化 任何 手动 执行 的 操作 ， 


sed 是 作为 特殊 日 的 的 编辑 器 而 创建 的 , 用 王 才 门 执行 蒜 本 ， 与 电 不 同 ， 它 不 能 交 
艺 地 使 用 。 sed 与 晶 的 主要 区 别 在 于 它 是 面向 字符 流 的 。 黑 认 情 况 下 ， 到 sed 的 所 
有 给 入 都 会 经 过 相应 的 处 理 ， 并 转 为 标准 输出 。 输 人 文件 本 身 不 发 生 改 变 , 如 果 确 
实 想 改变 输入 文件 ，- 般 使 用 shell 机 制 进行 输出 重 定向 , 当 你 对 所 艇 的 编辑 工作 清 
总 上 时， 用 修改 后 的 版 本 代替 基 初 的 文件 。 


ed 不 是 面向 字符 访 的 , 并 且 文 性 本 身 会 发 生 改 变 。 ed 脚本 必须 包含 保存 文件 并 退出 
编辑 器 的 命令 。 它 不 产生 到 达 屏 幕 的 输出 ， 代 由 特殊 命令 生成 的 东西 除外 。 


sed 的 字符 流 定位 对 如 何 应 用 录 址 有 重要 影响 。 在 所 中 没有 指定 地 址 的 命令 只 影响 
当前 行 。sed 遍 历 文件 , 每 次 一 行 , 这 样 每 - 行 都 成 为 当前 行 , 而 且 每 一 行 都 应 用 这 
个 命令 。 结 果 是 sed 对 文件 中 的 每 一 行 弃 用 了 没有 地 址 的 俞 令 。 


看 下 下 面 的 规 换 命令 : 
SrecSULIaryecmnplexy 


如 果 在 ed 中 交互 式 地 输入 这 个 命令 ， 则 用 “complex” 取 代 当 前 行 上 第 一 次 出 现 的 
Tegulaf 。 在 ed 脚本 中 , 如 果 这 是 秆 本 中 的 第 一 个 命令 ,那么 它 就 只 应 用 于 文件 的 
量 后 一 行 【ed 的 黑 认 当前 行 )。 然 而, 在 sed 靶 本 中 . 相同 的 命令 应 用 于 所 有 的 行 。 
也 就 是 说 ，sed 命令 是 隐 式 的 全 局 命令 。 在 sed 中 ， 上 :个 示例 的 命令 和 ed 中 如 下 
所 示 的 多 局 命令 结果 相同 。 





台 TeSULary SComb1ex 7 


了 解 基本 操作 27 





注意: 理解 所 中 的 当前 行 寻 址 与 sed 中 全 局 行 寻 址 之 问 的 区 别 是 朝 重 要 的 。 在 旺 中 ， 使 用 是 
址 扩 天 受命 令 影 响 的 行 数 ;在 sed 中 ， 侦 用 好 址 限制 受命 令 影响 的 行 数 。 











sed 还 其 有 ' 些 支持 编号 著 本 的 额外 命令 。 在 第 六 章 “ 高 级 sed 俞 令 ” 中 可 以 看 到 一 
部 分 这 样 的 命令 。 


awk 是 作为 吕 编 程 的 编辑 器 而 开发 的 ， 同 sed -- 样 ， 它 也 是 而 向 字符 流 的 ， 并 日 解 
轰 编 钳 命 令 的 脚本 。awk 与 sed 不 同 的 地 方 是 它 庆 弃 了 行 编辑 器 的 命令 集 。 尼 提供 
了 仿效 C 语 言 的 程序 设计 语言 ， 例 如 ，print 语句 取代 P 命令 ; 但 儿 续 了 寻 址 的 菇 
念 ， 例 如 : 


TegUTLar ”2 Pr2mLl 


用 于 打印 匹配 “regular” 的 那些 行 。 大 括号 【1{}) 用 于 包围 应 用 十 闻 ,地址 的 一 个 
或 多 个 语句 。 





人 在 脚本 中 使 用 程序 设计 语言 的 优点 是 , 它 提 供 了 更 多 的 方式 来 控制 可 编程 的 编辑 器 
所 散 的 事情 。awk 提供 了 表达 蕊 、 条 件 语 多、 循环 和 其 他 程序 设计 结构 。 


ak 最 独特 的 特征 之 一 是 记分 析 或 拆 分 每 个 输 和 人行 , 并 生成 可 用 于 脚本 处 理 的 独立 
的 单词 《一 个 编辑 路 ， 仿 如 Yi， 也 识别 单词 ， 双 许 一 个 单词 一 个 单词 好 移动 ， 或 者 
使 一 个 单词 成 为 操作 对 象 ， 但 是 这 些 特 征 具 能 在 交互 方式 上 使用) 。 


虽然 awx 是 作为 可 编程 的 编辑 器 设计 的 , 但 是 用 户 会 发 现 . awk 有 某 本 也 能 完成 许多 
其 他 任务 。awk 的 作者 永远 不 会 想到 它 被 用 于 编写 庞大 的 程序 。 但 是 , 当 认 识 到 awk 
能 这 样 使 用 以 后 , 作者 们 修订 了 这 种 语 幸 , 创建 了 nawk ,为 编写 庇 大 的 程序 和 解决 
多 方面 的 程序 设计 问题 提供 了 更 多 的 支持 。 这 个 新 的 版 本 《有 较 小 的 改进 ) 蝇 前 已 
经 由 POSIX 组 织 作为 标准 。 


0 二 “+ 五 
命令 行 的 语法 
可 以 用 大 致 相同 的 方式 调用 sed 和 awk。 命 信行 语 泪 是 ， 
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儿 乎 和 所 有 的 UNIX 程序 - 样 ，sed 和 awk 都 可 以 从 标准 输入 中 取得 输入 并 将 输出 
发 送 到 标准 输出 。 如 果 指 定 文件 名 Jilename， 输 人 就 取 自 那个 文件 。 输 出 包含 处 理 
后 的 信息 。 标 准 输出 是 指 屏 幕 ， 而 卫 : 般 来 自 这 些 程序 的 输出 都 输出 到 那里 。 答 出 
也 可 被 送 到 -个 文件 . 例如 shell 中 的 BO 重 定向 , 但 是 布 允许 送 到 向 程序 提供 和 给 人 
的 同 “个 文件 。 

















每 个 命令 的 epfions 古 不 同 的 。 我 们 将 在 以 后 讨论 这 些 选 项 【sed 命令 行 选项 的 完 
整 列 表 可 以 在 附录 一 “sed 的 快速 参 基 ”中 找到 ,awk 命令 选项 的 完整 列表 可 以 在 附 
录 一 “awk 的 快速 参考 ”中 找到 )。 





scripl 指 定 了 要 执行 的 指令 . 如 果 在 命令 行 上 指定 script, 假如 它 包 含有 可 以 由 shell 
解释 的 空格 或 任意 字符 《例如 $ 和 *#*)， 那 么 它 必 须 用 单 引 号 揪 超 。 


sed 和 awk -' 个 共同 的 选项 是 -7 选项， 这 个 选项 妈 许 你 指定 脚本 文件 的 名 字 。 随 着 
丢 本 大 小 的 增长 ， 将 它 放置 在 文件 中 比较 方便 因此， 可 以 按 如 下 方式 调用 sed: 


3&9 -E Scriptrizle ImPatTtIiTe 


图 2-1 展 示 了 sed 和 awk 的 基本 操作 。 每 个 程序 每 次 从 和 输 人 文件 中 读 取 一 个 输入 行 ， 
生成 该 输入 行 的 备份 ， 并 且 对 该 备份 执行 脚本 中 指定 的 指令 。 因 此 ,对 输 人 行 所 做 
的 改动 不 会 影响 真正 的 输入 文件。 











2-1: 86d 和 awk 的 工作 方式 





了 解 基 本 操作 - 入 





脚本 化 

脚本 就 是 告诉 程序 做 什么 的 地 方 , 至少 要 包含 一行 指 令 , 短 的 脚本 可 以 在 命令 行 上 
指定 ， 长 的 脚本 通常 放 在 容易 链 修 订 和 炙 试 的 文件 中 , 在 编号 脚本 时 ， 要 记 住 指令 
执行 的 顺序 以 下 每 个 指令 如 何 上 改变 输 和 信行， 


在 sed 和 awk ， 每 个 指令 都 也 括 两 个 部 分 : 异 民 和 过 程 。 模式 是 由 插 杠 【7) 分 陋 
的 正则 表达 式 ， 过 程 指定 “个 或 多 个 将 被 执行 的 动作 。 





当 读 取得 入 的 每 行 时 , 程序 读 吧 脚本 中 的 第 “个 指令 并 检测 当前 行 的 模式 。 如 果 没 
有 瑟 配 , 这 个 过 程 被 忽略 并 读 取 下 一 个 指令 。 如 果 有 “个 匹配 ， 那 么 执行 过 程 中 指 
定 的 “个 或 多 个 动作 . 读 取 所 有 的 指令 , 而 不 只 是 读 取 与 输 和 人行 匹配 的 第 一 条 指令 ， 


当 擅 有 可 用 指令 被 解释 并 点 用 下 单个 行 后 ,sed 簿 出 计 行 并 循环 处 理 每 个 输入 行 。 另 
-方面 ，awk 不 自动 输出 行 ， 脚 本 中 的 指令 控制 awk 最终 所 做 的 事情 ， 








在 sed 和 awk 中 过 程 的 内 容 有 很 大 不 同 。 在 sed 中 ， 过程 由 类 似 于 行 编辑 器 中 使 用 
的 那些 编辑 命令 组 成 。 大 部 分 命令 由 单个 字母 组 成 。 


在 awk 中， 过程 由 程序 设计 诸 句 和 畏 数 组 成 。 过 程 必 须 用 大 括 妃 括 起 。 





在 下 面 的 一 节 中 ， 我 们 将 看 到 用 信 处理 邮件 列表 的 著 本 示例 。 


邮件 列表 的 示例 


在 接 下 来 的 “ 节 中 ，, 下 例 中 恒 用 了 样本 文件 ， 名 为 1 它 包 侈 了 名 宇和 地 址 的 列表 
如 下 所 示 : 


上 Cat 寺 诗 B 七 

JDha 了 DBG 和 CELL ， 341 人 1 可 RoaG，PBlYymouth MA 

只 ice Focrd，27 Bast 中 rca3away，Riclmond Ya 
DrYVL1LT1E Shopmas，1]1345 aKk 了 TiIage 及 Dad， Ta] 台 让 站 长 
TerYY 其 昌 -Kd 上 5，4D023 Dans Roaa，BEavweT FaBLlS BA 
Er aaans，20 Sest RaG，SuUaburw Ja 

HUparL 号 -Ra5 ， 了 2 昌 站 也 世 中 KR 忆 吕 避 昌 ， RDamCke WG 

Rny 风 iae，334 Bayshore PKwryr，Motumntain iew Ca 
Sa farRenrer， 3 FRR Street，Bosten Ma 
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如 果 蛛 意 ， 可 以 在 你 的 系统 上 创建 这 个 文件 或 青 创建 一 个 类 似 的 文件 。 因 为 本 章 中 
多 数 朱 例 都 很 短 上 # 晶 着 可 实 玫 的， 你 可 以 从 键 些 上 输入 它们 并 确认 其 终结 果 。 


使 用 sed 


调用 sed 有 两 种 方法 : 在 命令 行 上 指定 编辑 指令 ， 或 者 将 它们 放 到 一 个 文件 中 并 提 
供 这 个 文件 的 名 字 。 


指定 简单 的 指令 
可 以 在 命令 行 上 指定 简单 的 编辑 命令 。 


SQL -所 | ImSLErUCEIPD ”上 TI 了 吕 


只 有 在 命令 行 上 给 出 多 个 指令 时 才 需 要 用 -e 违 项。 它 告 诉 sed 将 下 一 个 参数 解释 为 
指令 。 当 只 有 - :个 指令 时 ，sed 可 以 自己 做 决定 。 看 一 些 示例 ， 


使 用 样本 输入 文件 56, 下 面 的 例子 使 用 替换 命令 5, 用 Massachusetts” 代替 “MA?。 


号 有 旧 昌 人 “各 /7M 有 /本 站 已 日 已 忆 hid 弓 妃 七 十 号 荆 并 日 七 

柯 六 hm DagGeEt，。 卫 41 其 工 D 可 及 口 3 昌 ， 己 1YmIOU 芋 HI 机 总 号 已 三 全 上 和 记 [对 
中 :Ce Far，22 East Broadwayr，Richmona Va 

DTrYIL1L18 Thenas，11345 日 BaK BriaQge Road，T11L5B OK 
TeTTY 其 已] 广电 5 ， 02 DanmS RDad， Beavwver Pal]s PR 

Erie aqdamg，30 Soet Read，Suaqbury M 三 汪 上 如 US 七 二 8 
Hubext 3img，338 有 BIODK Koaad，Roanoke YVES 

TY 全 了 有， 433 和 Bayshaotre FKWY， Mountain YLew C 

呈 a1 CarPerlter， 3733 6th 号 teet， 卫 吕 SLCon apBaehUSEttS 


该 指令 只 影响 了 3 行 ， 但 显示 出 了 所 有 的 行 。 


并 不 是 在 任何 情况 下 都 需要 将 指令 用 单 引 号 包 财 起 来 ， 仁 是 你 应 该 养 成 这 个 习惯 ， 
使 用 单 引 号 可 以 阻止 shell 解释 编辑 指令 中 的 特殊 字符 或 空格 《shell 使 用 空格 决定 
提 父 给 程序 的 独立 的 参数 ， 特 殊 的 shell 字符 在 调用 之 前 被 展开 )。 


例如 ,以 上 例子 可 以 不 使 用 单 引 号 ,但 下 一 个 例子 就 需要 使 用 单 引 号 ， 因 为 声 换 命 
令 中 包含 空格 : 


了 解 基本 揉 作 可 了 








号 吕 G “上 日 人 到 四 /天 旭 身 日 息 产 Ji 日生 寸 起 马上 荆 圭 弓 亡 

JDHH RaedeELL ， 3 了 342 已 可 下 吕 二 避 ， 民 1YTIOUH， 岂 翅 研 S 呈 CDUSCGLLEES 
肌 ]| -Fard，22 SasSrL BTOEawsay，KECnmOnCd v 匀 

CrvwIL1LP TPReomaas， 1-325 人 akK Brage RSaO， TU1Sa 局 忒 

人 3 人， 并 an5 Daa，Beawer 下 L15 BR 

下 工 革 ee 委 忆 必 T 20 Fes5 有 Da 汪 UQbuEy ， 世 己 台 忆 站 性 HL SS 七 呈 
HEeT+ SmiS， 了 人 站 刘 > 品 DK 及 局 本 昌 ， 民品 阅 区 后 人 旺 

BTY 前: 了 334 BawvcoFDre DKwwr，MOJmESID TYTTEW CE 

号 站 上 允 苞 贡 评阅 【区 荆 ， 了 L 攻 号 三 全 全 上， 卫 S 巧 2 三 有 5S 忆 Ch JS 七 七 各 


为 了 在 城市 (city) 和 州 (state1 之 间 放 轩 喜 号 , 指令 用 - .个 逗号 和 -个 空格 取代 两 
字母 缩 扎 辣 前 面 的 空格 。 





有 3 种 方式 可 以 指定 命令 行 上 的 多 重 指令 : 


1. 昨 分 号 分 闻 指 令 。 


品 EG “号 让，, 并 二 台 虽 袜 人 LS5eTrS 7 FEA7， FemmoyLwvar] 瑟 1 工 吕 P 
La 
2. 在 每 个 指令 前 让 置 -e。 
SEO 辣 8 Ma MaSsSachueccrrr -人 3 FA， PEPnSY1VBSriay 11st 


3， 使 用 Bourne shell 的 分 行 指 令 巧 能 ( 注 1)。 在 输入 单 引号 后 按 RETURR 键 ,就 
会 出 现 多 行 输入 的 提示 符 (>)， 


所 号 品 " 
如 RAY ， 天 昌 日 日 忆 C 和 岂 日 局 七 七 旺 了 
日 BR ， PenneyYILvaniay 
日 CA。 翅 11E 必 TD da et 
UBha Dagger-t，34- 有 Rn RDoa 这 ，b1LYyTICULD ， as SChuS 人 七 吉 
疝 1 FOIQ，Z 下 外 St Beadiwayr，Rchnenad VE 
了 全 了 hemna5 人工 3 站 S 癌 二 K 肌 开 主 吕 疝 记 只 避 屿 。 了 号 总攻 
了 ETFEY 开 电 -上 己 扣 ， 册 站 了 了 TB 习 吕 ROa 中 HeavyveT Fa1]3， Pernawzvan 了 aa 
FTIC 庙 和 amS ， 20 DEL 只 Da 吕 ， 呈 hbhUEY ， 末 肥 号 上 汪 三 忆 hUSet 士 忆 
Upetrt 呈 imas， 328 员 HTCDODK Roaa，RORrnokE VS 
rmy 多 i1ae，334 RSaySsheor 台 kwy ， ONTmtaim Wew， 间 LEornmia 
只 ] 站 afPPEDncez，73 和 t 放 写 rTrEEc， Boston MassSacnusettgs 


这 种 技术 佳 C shell 中 不 能 使 用 ，C shell 中 采用 的 方 革 是 ， 在 每 个 指令 的 结尾 
使 用 分 号 , 并 且 通 过 用 反 疼 杠 作为 每 “ 行 的 结束 , 从 而 可 以 输 人 跨越 多 行 的 命 
令 (或 者 通过 输入 sh 临时 进入 Bourne shell， 然 后 用 以 上 方 靶 键 人 命令 )。 


风 





诅 凸 目前 , 衣 许 多 与 Bourme shel 革 容 的 shell, 能 避 傅 这 里 描述 的 那样 工作 , 扣 Ksh，basb、 
pdksh 和 zsh 妾 。 
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在 上 而 的 例子 山 ， 有 5 行 发 生 了 改变 ， 当 然 所 有 的 行 都 被 显示 出 来 。 记 住 在 输 人 文 
件 中 不 会 有 什么 改变 ， 


失误 的 命令 
sed 命 令 的 语法 可 以 被 细 化 ,在 使 用 时 很 容易 犯错 误 或 者 忽略 挤 需 要 的 元 素 。 注 态 输 
人 以 下 不 之 整 的 请 法 将 发 生 的 情况 : 


占 日 BQ -已 “日 /RMa BEBOhU 昌 ettBr 1 七 
器 :ComtTamCE 巧 PtEe 人 :> 划 记 ”天 本 号 所 ChUDSeT 六 


sed 通 常会 显示 任何 宪 不 能 执行 的 行 .但 是 它 不 会 告诉 你 使 用 这 个 命令 所 发 生 的 错误 
是 什么 【《 泽 2)。 在 上 述 情 况 下 ， 标 记 搜 索 和 赫 换 命令 末尾 的 斜 杠 委 失 了 。 





以 下 GNU sed 给 出 了 更 清楚 的 提示 : 


S 可 日 日 和 一 已 “日 了 网 及 全 二 各 各 总 袜 hU 朋 本 七 二 B 工 二 号 七 
负 3e 久 :ULETmILDatEa “SCCrturano 


脚本 文件 


在 命令 行 上 输入 较 长 的 编辑 脚本 是 不 实际 的 .这 就 是 通常 最 好 创建 包含 编辑 指令 的 
脚本 文件 的 原因 。 编辑 脚本 只 是 :系列 要 依次 执行 的 简单 的 sed 命令 。 这 种 形式 使 
用 了 选项 来 指定 命令 行 上 的 著 本 文件 的 名 字 ， 格 式 如 下 


SeQ -E SCrzIDEEIIS 所 


将 起 要 执行 的 所 有 编辑 命令 都 放置 在 文件 中 。 我 们 按照 民 例 创建 临时 脚本 文件 


Seed8ers 


名 妆 疙 有 GBF 

号 ”到 站 ， MaSsEsachUSELLSY 
呈 ” 忆 a  ， PeTPSYTwaII 六 
吾 ” 刀 呈 六 和 LIEDzTmI 羡 7 

SS VaA，VTgjiniay 

巨 ” 站 用 ”， 中 KKLabhocrmay 





广 冯 一 些 厂 商 在 这 方面 羽 乎 巴 既 敌 了 改进 。 例 训 ， 在 SunDS 4.1.5 上 ，sged 可 以 报告 


“sced:Ending defintiter tissing on substitutiomt :SAMA7NMassachusetts" 。 
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下 上 讶 的 命令 读 取 seaser 中 的 所 有 赫 换 命令 ， 并 将 这 些 命令 应 用 十 输入 文件 下 :中 的 
每 一 行 : 
司 _ Bed - 夺 BedeBcr 并 Bt 
JE DaaSGELET，321 REPO SS，31Y7mRHT， Ta SSBnP Set 吕 
总 1J124 LOS ERRtr Boaqrayr，RichTond，V1d1Tm 1:G 
PTW1T 1 PR ThamasS 二 3 和 2 站 BK 瑟 工 -本 及 33 由， 上台 豆 ,号 攻 上 己 HCT 避 
人 六 7W 天 交 上 呈 ， 站 本 了 吕 用 吕 呈 昌 , BEaVELT PS3L]e， FEEIIT 扣 光世 说 上 六 
蕊 站 站 本 司 人 有 了 了 有 Roac， EUabuzy，， MaSSacmUSET 
HUDeEL SI025 了 8 二 FDCOK 只 aa，RCam3KE，TYLzO niIa 
TIY 侈 1 1 本 B， 了 3 再 SY5bhBTe PAY MBCUTFSLT YYTEW 有 LoTT. 世 
5 CaTBenCer，7 了 3 总 LH SrTeeL BOStoR， MassacauoeLLS 


冉 阅 次， 显示 在 岩 站 上 的 结果 是 痢 时 的 ， 输 入 文件 中 屋 有 发 生疏 变 。 


如 果 sed 脚本 能 请 该 使 用 ， 邳 么 应 该 重新 命名 这 个 脚本 并 保存 它 。 有 用 的 肢 本 可 以 
保存 在 个 人 的 或 系统 共享 库 中 。 


保存 输出 


只 有 将 sed 的 输出 重 定向 到 另 个 程序 中 ,， 才 能够 捕 效 文件 中 的 输出 要 完成 这 项 
工作 需要 竺 ”个 文件 名 后 面 指定 一 个 shel 的 [O 重 定向 符 续 。 例 如 : 


3 Bed - 王 此 宕 可 症 CE 工 it > iBWw1IBt 


不 要 将 输出 重 定向 到 正在 编辑 的 文件 中 ,他 则 就 会 使 它 变 成 乱码 ( “>” 重 定向 操作 
符 在 shell 做 任 何 共 他 事情 之 前 截取 文 作 )， 如 果 想 几 输 出 文件 取代 输入 文件 ， 那 么 
可 以 采用 mmy 命令 并 将 它 做 为 单独 的 步骤 来 处 理 。 但 是 首先 要 确保 编辑 的 脚 布 是 正 
确 的 ! 





在 第 四 章 “ 编 气 sed 脚 森 ” 中 将 看 到 名 为 runsed 的 shell 脚本 ， 它 能 够 自动 地 创建 
临时 交 件 并 使 用 my 改写 原始 文件 。 


阻止 输入 行 的 自动 显示 


sed 的 黑 认 操作 是 输出 每 个 输入 行 . -选项 可 以 阻止 自动 输出 。 当 指定 该 选项 寺 , 每 
个 要 生成 给 出 的 指令 都 必须 包含 打印 命令 P。 请 看 下 面 的 示例 . 








岛 Bed - “和 让 “ 电 了 钵 让 了 训 站 和 南 避 菩 月 弓 七 七 Bt 卫 ” 工 圭 B 七 
JChn DaggeY 31 及 IDG FEDaD，PFJYymeouth MaSsEGChuSetcs 
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上 IC aartS， 0D DSS 忆 G3G， DOPBUTY 人 有 吕 SaLChUL Set+ 工 吕 
号 妆 aTEeDEOE， 1 5 Teer， Ronrocl MaSsachuSsettS 


将 这 -输出 与 本 节 中 的 第 一 个 示例 进行 比较 。 这 里 只 会 显示 受命 令 影 响 的 行 。 


混合 选项 (POSIX) 
通过 合并 命令 行 上 的 -e 和 -选项 可 以 构建 一 个 脚本 . 该 脚本 是 所 有 命令 按 命 令 的 给 
出 顺 序 组 合 起 来 的 ,在 yed 的 UNIX 版 本 中 似乎 支持 这 项 功能， 但 是 这 种 特 古 在 
助 页 中 没有 明确 给 出 . POSIX 标准 明确 地 晤 求 这 种 特征 。 





选项 总 结 
表 2-1 汇 总 了 sed 的 命令 行 选项 。 


表 2-1: sed 的 命令 行 选项 

迄 项 ”| 描述 

-e | 编辑 随后 的 指令 

-| 朴 随 脚本 的 文件 名 

-| 阻止 输入 行 的 自动 输出 








使 用 awk 


与 sed 骨 似 ，awk 为 每 个 输入 行 执行 一 套 指 令 。 可 以 在 命令 行 上 指定 指令 或 创建 县 
本 文件 。 


运行 awk 
命令 行 的 语法 是 : 
昌 友 基 “1 妃 与 上 上 MeC 站 S 下 1 了 所 三 


每 次 从 “个 或 多 个 文件 中 读 人 一 行 或 从 标准 输入 中 读 和 一行。 指令 必须 包含 在 单 引 
号 中 ， 从 而 与 shell 区 别 开 【 指 令 几 平 总 是 包含 大 括号 和 /或 美元 符 导 ，sheil 将 它们] 


1 nr ITIL ,aa oraimrraaprerrap 一 
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解释 为 特殊 符号 )。 可 以 用 与 sed 相 同 的 方式 输入 多 重 命令 行 : 用 分 号 分 隔 命令 或 使 
用 Borune shei 的 多 行 输入 功能 ， 


awk 程序 通常 被 放置 在 可 以 对 它们 进行 测试 和 修改 的 文件 中 。 用 脚本 文件 调用 awk 
的 语法 如 下 : 


BtWK - 王 SCr1PDDr 二 7 1) 呈 吕 


-选项 的 工作 方式 与 在 Se 则 中 由 同 ， 


尽管 awX 指 令 与 sed 指 令 的 结构 相同 ， 都 由 模式 和 过 程 两 部 分 组 成 ， 但 过 程 本 身 有 
很 大 不 同 。awx 看 上 去 不 像 编辑 器 而 更 像 “种 程序 设计 语 才 。 语 句 和 数 取代 了 使 
用 一 个 或 两 个 字符 组 成 的 命令 序列 。 例 如 ， 使 用 print 语句 打印 表 运 式 的 值 或 打印 
当前 输入 行 的 内 容 。 


在 通常 情况 下 ,awk 特 每 个 输入 行 解释 为 一 条 记录 而 将 那 一 行 上 的 每 个 单词 ( 由 空 
格 或 制 夫 符 分 后 } 解 粹 为 一 个 字段 (可 以 改变 这 些 默认 设置 ), 一 个 或 多 个 连续 的 空 
格 或 制 才 符 被 看 伍 一 个 定 界 符 。awk 允许 在 模式 或 过 程 四 引用 这 些 字段 。$0 代 表 整 
个 输入 行 。$1，$2.…… 表 示 输 入 行 上 的 各 个 字段 。 点 用 脚本 之 前 ，awtk 先 拆 分 输入 
记录 。 我 们 来 看 几 个 示例 ， 使 用 样本 输入 文件 各 志 


第 一 个 示例 包含 单个 指令 ， 用 于 打印 输入 文件 中 每 行 的 第 一 个 宇 段 。 


awk "{ Print 旧 1 了 二 LS 
Jechn 

六 1 工 Ce 

DTrw 1 

工 忆 上 YY 

FTC 

站 LI 

my 


Sa 上 


“$1 ”表示 每 个 输入 行 上 的 第 :个 字段 的 值 . 因为 这 里 没有 指定 模式 , 所 以 打印 语句 
应 用 于 所 有 的 行 。 下 一 个 示例 指定 了 “/MAA” 模式 ,但 星 其 中 没有 过 程 。 这 个 默认 
操作 是 打印 匹配 这 种 模 民 的 每 一 行 。 

mwK "MA BE 

onn Dagcert，381 RnG Road，PLYrmouch 划 各 


He Aaams，230 Pool Road Suabury An 
号 有 1 灾 羡 工 方 em 二 eT ， 了 3 用 Fh，&LEe 忆 七 ， 瑟 口 SHE 


也 第 二 事 





本 例 打 印 了 3 行 。 正 如 在 第 一 章 所 提 到 的 那样 ，awk 程序 更 像 一 种 查询 诸 吉 ， 从 文 
作 中 提取 有 用 的 信息 ,可 以 认为 以 上 模式 指定 了 一 种 条 件 ， 肯 于 选择 要 包括 在 报表 
中 的 记 孙 , 也 就 是 这 些 记录 必须 包含 字符 串 “MA”。 现在 还 可 以 指定 记录 的 哪些 部 
分 要 包括 在 撒 去 中 。 下 一 个 泵 例 使 用 一 条 print 语句 限制 只 输出 每 条 记录 的 第 “个 
字段 。 


5 mwK "7MRY { BITlnt 上 1 }》 dB 
wobzmn 
Er 二 C 


吕 忆 < 


如 昌 堂 试 着 大 声 地 阅读 这 :名 话 : Prini 古 e 放 rsf word of eacp iine containing 纺 e 
5fring WA4 这 将 有 助 于 我 们 理解 上 面 的 指令 。 可 以 把 它 说 成 “word (单词 )"， 这 
是 因为 在 默认 情况 下 ，awtk 使 用 空格 或 制 表 符 作 为 宁 段 分 隔 符 将 输 和 分隔 成 字段 。 


在下 -个 示例 中 , 使 用 -选项 将 字段 分 隔 符 改 变 为 逗 导 .。 它 使 我 们 能 够 检索 3 个 字 
段 中 的 任 -个 : 全 称 、 街 道 地 址 或 城市 和 州 。 


S awk -PFA (Print 多 1 7 工 主 EE 
Jehm Da 号 可 人 k = 

EriC Rdqams 

上 吕 已 司 三 电 全 mc 


不 要 将 改变 字段 分 隔 符 的 -天 选项 与 指定 脚 小 文件 名 的 了 选项 卉 涉 。. 


下 “个 示例 将 每 个 字段 单独 打印 在 一 行 上 。 多 和 命令 由 分 号 陋 开 。 


S mwWK -FF "{DIJTRnAL 总 1 PILE 入 2 DFTHL 让 3 7 1 工 折 纪 
可 whm DaoJ 导 Et 

了 和 长 PC 宁 有 aa 
PJLYTnOU 上 上 ME 

乌 1 Ce 下 写 世 

了 3 下 已 SC 也 并 口 旺 晤 waY 
Riehmeng 3 

APVvIlLJE Thonas 

1345 Dak 3Fradge RDatd 
ETE 
了 ErYTY 其 忆 K 昌 3 

业 02 二 me ROSS 

BeaweLr 下 已]1S5 忆 

BTiCc maQarms 

了 0 Pest 2oaaq 

SudGpurv Mn 
HaPert Se 


了 解 基本 操作 








了 931 Sa 
EL 
总 Pt 亲人 旗 

3 也 了 SDODOLEC 上 ww 
RDUILa IT Wew 空 
与 坟 上 已 二 工人 mm 荆 工 

?35 全 tn SLC 

呈 6SFODn 


前 面 的 示例 使 用 sed 改 变 了 输入 数据 的 内 容 。 使 用 awk 重新 排列 数据 。 在 上 而 的 awk 


示例 中 ,注意 如 何 将 前 导 空 白 看 做 是 第 一 个 和 第 二 个 字段 的 一 部 分 -。 





出 错 信息 


当 遇 到 程序 中 的 操 题 时 ，awk 的 每 个 实现 帮会 给 出 不 同 的 出 错 信 息 。 因 此 ,这 里 不 
引用 特殊 版 本 的 请 息 ; 当 出 现 问 题 时 它 蚌 显而易见 的 。 下 和 座 任 何 一 种 情况 部 会 产生 


席 息 : 


* 设 有 用 大 括号 【{)) 将 过 程 括 起 来 
* 没有 用 单 引号 【” ) 将 指令 括 起 来 
* ”没有 用 斜 本 《WA) 中 将 正则 表达 式 括 起 来 


选项 总 结 


表 2-2 汇 总 了 awk 命令 行 的 竺 项 。 


表 2-2，awk 的 命令 行 选 项 
选项 描述 

-| 眼 随 邯 林 的 文本 名 
- 严 改变 字段 分 隔 符 
2 | war= Taae 








在 命令 行 上 指定 的 参数 中 的 . "选项 将 在 第 七 章 “ 编 号 awk 脚本 ”中 讨论 。 
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同时 使 用 sed 和 awk 


在 UNIX 中、 管道 可 用 了 将 -个 程序 的 输出 作为 输入 传递 给 另 “个 程序 。 参看 儿 个 
乡 合 使 用 secd 和 awk 来 产生 报表 的 示例 。 用 州 的 全 名 代 赫 邮政 编码 的 sed 脚本 通常 
已 经 号 通 ， 它 本 拓 再 次 用 做 名 为 namestate 的 脚本 文件 : 

5 忆 且 上 Stm 乌 上 3 七 所 

号 CA ETfCrDn1TaY 

只 RPR ， 了 网 研 呈 吕 aCDUSEL 吕 7 

号 7 区” ， 站 KKLaziEEmTa， 

号 了 并 二 DSS 


与 


当然 ， 奖 处 理 所 有 的 州 ， 而 不 只 是 这 5 个 ， 半 遇 如 昌 是 对 文档 而 不 是 邮件 列表 执行 
这 些 命令 ， 则 要 确保 不 会 生成 不 必要 的 寺 换 。 


该 程 序 (使 用 输入 文件 fisr) 的 输出 ， 与 我 们 已 经 看 到 的 相同 , 在 下 -- 个 示例 中 , 由 
nanmeState 产生 的 输出 被 给 送 到 :全 awk 程序 中 , 这 个 awk 程序 用 十 从 每 条 记录 中 
提取 州 的 名 宣 。 

S BeQ - 主 name 如 七 ate 1i6 | aogg -FA 人 Brint 闽 4 上 7 

例 司 品 避 忆 局 民 US 已 臣 SS 

LE 后 二 mlI 忆 

Ok1ahaoma 

Pemmsy] wa 

划 总 号 号 忌 Cm11 与 已 七 “三 

人 了 台 a 

辫 枉 工 工 芋 记 TTL 忆 

MaSsSachuUseEtzS 


以 上 awk 程序 处 理由 sed 脚本 产生 的 输出 。 记 住 前 面 的 sed 脚本 用 逗号 和 州 的 全 称 
代 夫 缩写。 实际 土 , 将 包含 城市 和 州 的 第 三 个 字 衣 拆 分 成 两 个 字段 。"$4” 表 示 第 
四 个 字段 。 


这 里 所 做 的 事情 可 以 完全 由 sed 完成 ， 但 可 能 会 存 更 多 的 朵 难 和 更 少 的 通用 性 ， 而 
且 ， 因 为 awk 序 许 替换 匹配 的 字符 串 ， 所 以 可 以 完全 用 aw 脚本 得 到 这 个 结果 。 





本 程序 的 结果 不 是 非常 有 用 ， 可 以 将 它 传递 给 sort | uniq -<， 它 将 州 名 搂 字 母 表 
排序 ， 同 时 给 出 每 个 州 名 出 现 的 次 数 。 
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葛 在 ,我 们 于 做 一些 更 有 趣 的 事情 。 按 州 的 名 字 排 序 并 列 出 州 的 名 字 ， 以 及 住 在 著 
个 州 的 大 的 名 字 。 下 面 的 示例 展示 了 byState 程序 : 


利 1 DTm Pa 

司 WW 坟 ; 
D LT 生 二 有 
人 

sez+ | 

站 mw 一 

Sa TaSsLS3Le 


2 haiLEDT 二 这 


3] 1- alzoca te 1 





asx 号 Late 一 六] 
ETPiIIE 之 二 


这 个 shell 脚本 有 3 个 部 分 。 程序 中 调用 awk 以 产 上 sort 程序 的 输入 ,然后 冉 次 调用 
ae 怀 测 试 排 好 序 的 输 和 人， 并 确定 当前 记录 中 的 剂 的 名 宇 , 是 否 与 前 -个 记录 中 的 名 
字 相 同 。 我 们 来 看 这 个 肢 本 的 执行 : 


日 - 直 妇 BGS 七 品 上 号 工 吕 上 ] PY Sa 七 昌 
站 己 ] 工 芋 吕 TPTe 
amy mi1LQc 
玉 辣 号 对 当 ChUS 尼 人. 本 己 
3 是 可 ams 
UOHT 了 Da 后 全 所 七 二 
号 去] 忆 电 下 和 已 [- 十 己 > 
总 兵 1 中 Herma 
DEFwT1L1E Thornas 
PermSYJTwan1 己 
TT 扫 世 Fw 下 已 了 上 误 己 
了 FI DTILa 
名 二 妆 提 三 T 刁 
HUbPert 呈 .Imas 


这 些 名 字 被 按 州 排 座 ， 这 是 使 用 awk 从 结构 化 数据 中 沾 成 报表 的 典型 示例 。 


为 了 检查 byState 程序 是 如 何 工 作 的 ， 让 我 们 分 别 看 看 每 个 部 分 ， 它 被 设计 为 从 
nameState 程序 读 取 输入 并 期 待 “$4” 成 为 州 的 名 字 ， 查 看 由 程序 的 第 一 行 产 生 的 
输出 : 
3 BeQ -二 了 ameState Lat | awk -F，:f print SS$S0 1 
NMaSsachusefrzS，vonn DaggSetL，341 KDS Roa，H]Ywmourh，Massachugetts 


Virginm3 Ba， 上 LILCe Ford，22 RaS+ Boagwrayr。，RIcbhmonaq ， 人 7 工 可 也 主 已 
6kTanenda，Rrvalle Thormas，11349 Dak Brldge Road，Ta1Lea，Oklabema 
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FERmgW] 和 辣 六 站， 各 区 臣 二 1 其 总 日 ， 直 前 局 用 号 中 二 站 引 忆 YET 了 王 上 | 上 号 emnnmgyTwaIL 人 
人 和 PP FS Road 号 DrjtruT 站 。 贡 辣 全局 关 T 马 世 二 十 马 






RDEITL 呈 工 台 ， 了 也是 员 电工 癌 如 类 让 昌 夺 又 吕 B 开 己基 呈 。 以 工 避 荆 忆 工 吕 
Ta AmY ee，33 和 4 ESaYvBheGre ERww，KDunLaLn YLew，CalEornla 
于 呈 名 记 和 车 丰 LE， 辣 相 写 关 了 全 扯 岂 二 和 芝 了 卫士 上 半 忆 全 刷 吕 STMaaSBaChUS 忆 = 二 SS 





默认 情况 下 ，sort 与 岩 接 字 是 顺 序 排列 行 ， 从 去 到 右 查 看 字符 。 为 了 接 州 【而 不 是 
名 宇 ) 对 记录 进行 排序 ， 我 们 将 州 作为 排序 的 关键 字 揪 人 到 记录 的 开 驳 处。 现在 ， 
SOrE 程 序 可 以 工作 了 ( 广 意 使 有 sort 实用 工具 可 以 避免 在 awk 内 部 编写 排序 程序 )。 


第 -次 调用 awk 时 执行 程序 设计 任务 。 脚 本 查看 每 条 记录 的 第 一 个 字段 以 决定 它 是 
否 与 前 :条 记录 相同 。 如 果 不 相 同 ， 则 同时 打印 州 的 名 字 和 人 的 名 字 。 如 果 相 问 ， 
则 只 打印 人 的 名 字 。 
5 == LS: ate ， 
了 iDL “二 卫 昌 TSDPI tt 二 2 
sa 1 = [ae SU 
卫 久 号 二 号 F 呈 二 后 一 上 
PrITL SS 


ETITH “ 帮 阐 TS AL 
1 


这 里 还 有 儿 个 重要 的 事情 , 包括 给 一 个 变量 赋值 ,测试 每 个 输入 行 的 第 一 个 字段 来 
看 它 是 再 包含 - -个 变 世 字符 串 , 并 且 打 印 制 表 符 来 调整 输出 数据 的 对 齐 . 注意 在 使 
用 某 个 变量 之 前 不 必 对 它 先 赋值 (因为 awk 将 变 基 初始 化 为 空 字符 串 )。 这 是 较 小 
的 脚本 ， 但 是 在 第 上 一 章 “综合 应 用 ”中 的 更 大 的 索引 程序 中 ， 可 以 看 到 用 于 比较 
索引 条 日 的 类 但 的 程序 。 然而, 日 前 可 以 先 不 用 过 多 地 关心 有 美 每 条 语句 做 什么 事 
情 。 这 里 的 日 的 是 给 你 -个 sed 和 awk 能 做 什么 的 概述 。 





本 章 概 述 了 有 关 sed 和 awk 的 基本 操作 . 介绍 了 重要 的 命令 行 选项 以 及 脚本 的 使 用 ， 
下 - - 章 将 介绍 正则 表达 式 ， 即 两 个 穆 序 腹 来 在 输 人 中 进行 模式 匹配 的 某 些 内 容 。 








姓 
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第 三 章 
了解 正则 表达 式 
语法 


号 ee 生 放 这 5 
和 和 基 
生 
和 


-rr 


当 小 孩 努 力 理 解 惯用 语 形 达 的 省 尺 时 ， 例 如 “Someone let the eat put of the bag 
《有 人 把 猫 从 口 装 里 坡 了 出 来 六 ,你 可 能 帮 他 解 二 为 这 是 一 种 表达 意思 的 方式 { 表 法 
式 1、 而 不 表示 它 的 字 而 含 交 。 


即使 在 计算 机 术语 学 中 , 表达 式 也 不 是 按 字面 意 六 被 解释 。 它 是 某 些 需要 被 计算 的 
东西 一 个 表达 战 手 述 - -种 结果 。 


在 本 章 中 , 我 们 将 介绍 正则 表达 式 的 语法 , 正则 表达 式 摘 述 了 神 式 或 特殊 的 字符 序 
列 ， 尽管 没有 必要 指定 -个 精确 的 序列 。 


虽然 由 则 表达 式 是 UNI 的 :个 基本 部 分 ,了 世 并 不 是 每 个 人 都 完全 理解 其 语法 。 事 
实 土 ， 下 面 的 这 种 表达 式 基 莫 常 准 理解 的 : 


”中 x.* 


该 表达 式 使 用 元 字符 (metacharaeter) (也 和 做 通配符 ) 或 特殊 的 符号 , 匹配 一 个 具有 
一 个 或 多 个 前 导 空 格 的 行 《 在 示例 中 使 用 方 框 “ 口 ”是 为 了 使 空格 可 见 )。 





如 果 你 用 过 基于 宏 的 UNIX 文本 编辑 器 ， 那 么 可 能 对 正则 表达 式 语 法 比较 部 悉 。 
grepB、sed 和 awk 者 使 用 正则 表达 式 ， 然 而 ,这 3 个 程序 并 不 能 完全 使 用 正则 表达 
式 诸 庄 中 的 所 有 元 字 等 。 基 本 的 元 字符 集 是 由 好 行 编 辑 器 引 人 和 人 的， 而 且 在 grep 中 


他 


齐 


和 


和 2 第 





可 用 。sed 使 用 相同 的 蕊 字符 集 。 后 来 引 人 了 和 为 erep 的 程序 , 它 提 供 了 一 个 扩展 
的 元 字 符 集 。awkX 基本 上 使 用 与 晤 rep 相亲 的 元 字符 集 。 


为 了 理解 正则 表 运 式 证 靶 ,必须 了 解 由 布 同 的 抑 字 符 执行 的 功能 。 而 且 还 必须 参见 
' 些 组 全 使 用 元 字符 进行 工作 的 示例 . 这 就 是 我 们 学 习 本 章 的 方法 : 介绍 每 个 元 字 
符 并 提供 天 时 的 示例 ， 大 部 分 使 用 grep 和 它 的 芝 见 弟 egrep 来 演 朱 实际 的 应 用 。 


恕 时 你 已 经 了 解 了 正则 表达 式 语 社 ,， 可 以 根据 咯 吕 的 意愿 跳 过 这 - -所 。 止 则 表达 式 
中 的 元 字符 的 完整 清单 可 以 在 袁 3-]、 附 未 “sed 的 快速 参考 ”和 附录 一 “as 必 的 
快速 参考 ”中 找到 。 有 兴趣 的 读 背 可 以 参考 个 Reily 出 版 并 由 Jeffrey E.F,Friedl 编 
著 的 《Mastering Regular Expression》， 该 飞 音 细 介绍 了 正则 表达 式 的 结构 和 用 注 ， 


表达 式 
你 可 能 狼 悉 ,个 计算 器 解释 的 表达 式 。 请 看 下 面 的 算术 表达 式 : 
:4 
“2 加 4" 出 几 个 常数 或 字面 值 和 一 个 操作 符 组 成 。 计算 器 程序 必须 能 够 识别 , 例如 ， 
“2” 是 数字 常数 而 加 号 考 示 一 个 操作 符 ， 而 不 能 解释 为 “+” 字 符 。 


表达 式 告 诉 计算 机 如 何 产生 结果 。 上 总管 我 们 真正 想 要 的 就 是 “2+4” 的 结果 ， 但 我 
们 不 能 简单 地 告诉 计算 机 返回 6。 我 们 指示 计算 机 计算 表达 式 并 返回 值 。 


袁 过 式 可 以 比 “2+4” 更 复杂 ， 事 实 上 ， 它 由 多 个 简单 的 表达 式 组 成 ， 例 如 ， 
了 

计算 器 通常 从 去 到 右 让 算 表 达 式 。 然 而 . 某 些 操作 符 比 其 他 操作 符 的 优先 级 高 , 也 

就 是 ， 它 们 将 被 首先 执行 。 因 此 ， 上 面 的 表达 式 的 结果 为 14 而 不 是 20， 因 为 乘法 

的 优先 级 高 于 加 法 。 将 简单 的 表达 式 放 人 贺 揪 号 中 可 以 改变 优先 级 . 因此 “(2+3 ) 


村 ”或 “2 加 3 的 和 的 4 倍 ” 的 结果 为 20。 圆 括号 是 指示 计算 器 改变 表达 式 计算 顺 
序 的 符号 。 


相反 ， “个 止 则 表达 式 撒 述 了 一 种 模式 或 字符 序列 。 字 符 串 连接 是 每 个 正则 表达 式 
的 基本 操作 。 也 就 是 、 一 个 模式 匹配 相 邻 的 -系列 字符 。 请 看 下 面 的 正则 表达 式 ; 


了 佣 正 则 圾 达 式 语法 - 和 





习 下 


每 个 字面 字符 者 契合 下 则 表达 式 ， 它 具 旦 本 和 姥 个 单独 的 字符 。 这 个 胡 达 式 描述 了 
“B 跟 站 A. BE 跟着 B ”或 简单 称 为 “字符 串 ABBE"。 太 语 “ 字 符 串 ”意味 普 每 个 字 
符 部 与 儿 前面 的 字符 相连 接 。 不 一 定 要 将 正则 表达 式 撒 述 为 由 字符 序列 组 成 【初学 
营 舌 车 于 将 其 薄 虑 成 出 较 高 级 的 单元 组 成 ,例如 由 单 问 而 不 是 独立 的 字符 组 成 ), 正 
则 表达 式 区 分 大 小 荨 ， 因 此 “A” 不 虑 配 “a” 【证 上 )。 


接受 正则 表 运 式 的 程序 【例如 蛙 ep) 必须 首先 解析 上 上 则 表达 式 的 语法 来 产生 一 个 模 
式 ， 然后 它们 -- 行 “ 行 地 读 取 输入 来 党 试 正 配 访 模式。 输入 行星 -个 字符 串 ， 而且 
隐 看 字符 串 与 模式 是否 匹 记 ,程序 将 字符 串 的 第 -个 字符 与 模式 的 第 一 个 字符 进行 
比较 。 如 果 匹 配 ， 就 比较 第 一 个 字符 、 无论 何 出 只 要 匹配 失败 ， 就 返回 并 从 字符 串 
中 这 个 字符 后 面 的 字符 重新 开始 匹配 。 图 3-1 说 明了 这 个 过 程 ,在 输入 行 上 尝试 匹 
配 模式 “abe ”~。 


正则 吉 达 式 不 只 限于 文字 字符 。 例如， 元 字符 名 点 【.) 可 以 作为 “通配符 ”匹配 任 
何 单个 字符 。 你 可 以 认为 这 个 通配符 与 Scrabble 中 的 室 自 类似, 可 以 表示 任意 字母 ， 
因此 ， 我 们 可 以 指定 止 则 表达 式 “A.E” 而 用 它 将 和 “ACE”".“ABE” 和 “ALE” 
都 丐 本。 多 点 与 “A” 后 面 的 位 置 上 的 任何 字符 上 配 ， 


苞 字符 *《 星 号 } 用 于 与 尼 前 而 的 正则 表达 式 的 零 个 或 多 个 出 现 匹配 ， 该 直达 式 通 
沼 基 -个 字符 ,你 也 许 对 “作为 一 个 sheli 元 宇 符 更 熟悉 ,在 那里 它 表示 “ 零 或 多 个 
字符 。 但 是 这 与 它 在 正则 表达 式 中 的 含义 不 同 。 星 号 元 字符 本 身 不 匹配 任何 字符 ， 
蕊 用 工 修改 它 前 面 的 内 容 。 正则 表 和 达 式 .* 匹配 任意 数 日 的 字符 ,而 在 shell 中 , * 本 
身 就 上 其 有 这 各 含义 【例如 , 在 shell 中 ，Is* 袁 示 列 出 当前 日 录 中 的 所 有 的 文件 )。 正 
则 表达 武 “A.*E” 臣 配 任何 与 “A.E” 匹 配 的 字符 串 , 但 是 它 还 匹配 在 “A” 和 “E” 
之 间 其 有 任意 数目 的 字符 : 例如 “AIR-PLANE”、“A FINE"、“AFFABLE"” 或 “A 
LONG WwWAY HOME"。 注 意 “ 任 意 数 日 的 字符 ”可 以 是 零 个 字符 ! 





如 果 赣 解 了 正则 表达 式 中 “.” 和 “*” 之 间 的 区 别 ， 屠 名 就 已 经 了 解 了 元 字符 的 两 

个 基本 类 型 那些 能 够 被 看 做 单个 字符 的 元 字符 和 那些 被 看 做 如 何 修改 前 面 的 字符 

的 元 字符 。 

注  。 某 些 其 他 程序 为 使 用 正则 表达 支 提供 了 不 区 分 大 小 写 的 选项 ,但 是 sed 和 awk 区 分 大 
小 写 。 




















下 he 
答 和 行人 和 The jar's Label . abe 
可 式 1 在 这 小 例子 中 ， 输 入 行 的 第 
全 于 一 个 字符 楼 党 的 第 一 个 字符 
不 是 配 ， 因 为 匹配 失败 ， 所 以 
法 着 用 给 入 行 的 下 一 个 宇 符 与 
痢 式 的 第 一 个 字符 相 比 较 
] 豆 工 ! S ] 忌 中 ' S 了 旺 本 /5 
abe ape 总 De 


妈 


2 在 输入 行 中 ， 第 一 人 满足 模式 中 名 Re ， 返 回 到 模式 的 第 一 个 字符 ， 并 
第 一 个 匹配 宇 符 的 是 单词 向 r， 因 中 的 下 一 个 宇 符 不 匹配 与 得 入 行 的 下 一 个 宇 符 相 比 较 
为 在 一 全 匹配， 所 以 模式 的 第 二 
下 
上 























1 有 bel1 1 apel 1 abel 
己 De abe 己 DE 
元 在 单词 旭 5e 巾 衣 到 与 这 个 稳 。 。 及 因为 相 匹配 、 所 以 模式 的 第 二 个 。 了 现在 将 模式 中 的 第 三 个 字符 与 
式 的 第 一 个 字符 相 史 配 的 下 一 字符 与 输入 行 的 下 一 个 字符 相 比 输入 行 的 下 一 个 字符 相 比 较 ， 
个 字符 较 。 在 这 种 情况 下 ， 是 相 匹 配 的 这 时 也 匹配 因此 这 个 输入 行 
匹配 该 粮 式 
图 3-1: 解释 企 则 表达 式 


很 明显 使 用 匹 字符 可 以 扩展 或 限制 可 能 的 匹配 。 你 可 以 更 多 地 控制 匹配 什么 和 不 匹 
配 什么 。 


成 排 的 字符 


我 们 已 经 看 过 了 表达 式 中 的 两 个 基本 元 素 : 
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1. 以 一 个 字 早 值 或 变革 南泉 的 值 。 
2. -个 操作 符 . 


目 则 表 寺 式 是 由 庆 些 由 同 的 匹 素 组 成 的 ， 低 闪 字符 【 表 3-1 中 的 元 空谷 除外 ) 部 被 
解释 为 只 匹 配 它 本 身 的 字 商 值 。 


表 3-1: 元 字符 汇总 





特殊 字符 用途 _ 
下 配 除 换行 符 以 外 的 任意 单个 守 符 。 在 awk 中， 名 点 也 能 匹配 换行 特 
* 匹配 性 意 一 个 1 包括 零 个 ) 在 尼 前 面 的 字符 (包括 由 正则 表达 起 指 定 的 
字符 ) 
1 ,匹配 启 桥 号 中 的 字符 类 中 的 任意 一 个 。 如 果 方 括号 中 第 一 个 字 答 为 脱 主 


符 苇 4")、 则 表示 否定 配 ， 即 匹配 除了 换行 符 和 类 中 列 出 的 那些 字符 

:以 外 的 所 有 字符 。 在 awk 小、 也 匹配 换行 特 , 连 字 符 (-) 用 于 表示 宰 符 
| 的 范围 。 如 果 类 中 的 第 一 个 字符 为 右 方 恬 号 【IT) 则 天 去 它 是 类 的 成 员 。 
| 所 其 他 的 元 字符 在 被 指定 为 业 中 的 成 员 时 都 会 失去 它们 原 米 的 含 交 


。 刻 果 作为 下 则 表达 式 的 第 -个 空 符 ， 则 表示 匹配 行 的 开始 。 在 awk 中 苞 
配 字 符 串 的 开始 ， 即 便 字 符 昌 包含 嵌入 的 换行 符 

$ 如 果 帮 为 赴 则 表达 式 的 最 后 - -个 宁 符 ， 则 表示 号 配 行 的 结 昆 。 在 awk 中 
匹配 字符 串 的 结尾 ， 即 使 字符 串 包 含 贞 入 的 换行 符 

Vonv} 匹配 它 前 桓 某 个 范 转 内 单个 字符 出 现 的 次 数 【包括 由 正则 表达 式 指定 的 


宇 符 1) 将 匹配 呈 次 出 现 ，VMfa} 至 少 匹 配 闫 次 出 现 ， 而 且 \{tnsee} 匹 
本 4 和 和 天 之 间 的 任意 次 出 填 。( 只 有 sed 和 srep 的 - - 些 非 常 旧 的 版 本 中 
不 能 使 用 ) 


， 转 义 随后 的 特殊 字符 








扩展 的 元 字符 1egrep 和 awk] 





特殊 字符 | 用途 
十 ， 此 配 前 面 的 正则 表达 式 的 次 或 多 次 出 现 
? 匹配 前 面 的 正则 表达 式 的 零 次 或 “次 出 现 


| 指定 可 以 相配 其 前 面 的 或 后 而 的 正则 表达 式 【替代 方案 ) 
划 对 正则 表达 式 分 组 
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特殊 字符 | 用 途 


fa} 匹 柄 它 前 面 基 个 范围 内 单个 宁 符 出 现 的 次 数 【包括 由 正则 表达 世 指 定 的 
守 适 ] .4 表示 匹 配 普 次 出现 ,fa 至 全 夸 配 下 次 出 更:fa 丙 } 下 本 靖 利 
弄 之 间 的 任意 次 出 现 。{( 用 了 POSTIX 的 egrep 和 POSIX awk 而 不 是 传统 
的 egrep 成 awk 














HL 大多 教 awk 实 弄 仿 鳅 不 支持 这 种 表示 法 - 


抑 字 符 在 止 则 表达 式 中 有 特 铁 的 含义 ， 与 * 和 * 在 算术 表达 式 中 具有 特 铂 含 文 的 方 
式 相 问 。 有 些 苑 字符 (+ ? 0 0) 只 有 作为 由 程序 (例如 虹 rep 和 awk) 使 用 的 扩展 
集 的 -部 分 时 才 可 用 。 存 以 下 几 妆 中 我 们 将 介绍 每 个 元 字符 的 用 法 首先 从 反 斜 杠 
开始 介绍 。 





普遍 存在 的 反 斜 杠 


元 字符 反 甜 红 (1 将 元 字符 转换 成 普通 字符 (和 将 普通 字符 转换 成 元 字符 ) 。 它 强 
制 将 什 意 元 字符 解释 为 普 道 文字 , 以 便 严 配 读 字符 本 细 。 例 如 , 句点 {.,) 是 元 字符 ， 
如 果 想 匹配 句点 ， 那 么 就 需要 用 反 斜 杠 对 共 进 行 转 多 。 下 面 的 正则 表达 式 匹配 由 3 
个 宣 格 跟随 的 名 点。 


\DD 口 
反 糙 杠 常用 于 嘴 配 以 句点 开始 的 tre 生 请 求 或 宏 。 
了 站 


还 可 以 用 反 疼 杠 转 义 反 秋 杠 。 例 如 ,tro 生 中 的 字体 改变 请 求 是 “Af" ,为 了 搜索 包含 
这 个 请 求 的 行 ， 可 以 使 用 下 面 的 正则 表达 式 : 


”上 
另外 、sed 使 用 反 斜 村 将 : :组 普通 字符 被 解释 为 正字 特 ， 如 网 3-2 所 示 。 


在 “w” 结 构 中 的 表 示 从 1 到 9 之 冯 的 一 个 数字 , 在 第 五 章 “ 基 本 的 sed 命 令 ” 中 
将 和解 上 它 的 用 让 。 
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图 3-2， 苇 又 sed 中 的 元 字符 


通配符 

通配符 元 字符 或 者 句点 {.) 被 认为 是 与 变量 等 价 的 . 变量 表示 算术 表 过 式 中 的 任意 
值 ， 在 正则 表达 式 H4， 钊 戌 《.) 是 代表 除 换行 符 以 外 的 任意 字符 的 通配符 【在 awk 
中 ， 句 点 贡 至 可 以 匹配 可 人 式 换行 符 ) 。 


假定 我 们 正在 描述 一 个 党 符 序 列 , 使 用 通配符 元 字符 可 以 指定 任何 字符 胡可 以 填充 
的 “个 位 置 。 


例如 ， 如 果 时 搜索 包含 Itel 系列 短处 理 骨 的 这 论文 件 . 使 用 下 面 的 正则 表达 式 : 


BO .5 


将 匹配 包含 序列 “80286,， “8D386,” 吕 “8048.6." 7 注 2) 的 行为 了 匹配 小 数 点 
或 句点 、 首 须 有 出 反 和 疼 相 转交 点 。 


只 匹配 模式 季 头 或 结尾 处 的 作 何 字符 没有 什么 用 。 因 此 , 道 配 符 宇 符 通 常 放 在 字面 
字符 或 其 他 元 字符 的 前 击 或 后 面 。 例 如 ， 下 面 编号 的 正则 表达 式 搜索 chapter 的 序 
列 : 


人 只 ac 


它 搜索 “Chaptcr ”后面 由 有 任意 字符 的 字符 串 ". 在 某 些 搜索 中 , 这 个 表达 式 有 可 
能 与 辕 定 的 字符 串 横 此 “Chapter” 有 具有 相同 的 匹配 。 请 看 下 面 的 示例 : 

避 工 记 “ 刀 如 让 巧 全 工 - ”日 GTD 工 二 

YEU wiiLL firmcdd sexreaza1l exampPles in Chaptetr 日 


"up me Chanter an Verse she salo。 
ChanmreTr 工人 六 


注 2: Pentium 系列 微 处 理 器 打破 了 我 们 向 单 的 模式 匹配 实验 ， 硫 坏 了 其 趣味 性 。 更 不 池 说 
最 吉 的 8086 了 ， 





和 和 第 三 章 





该 示例 搜索 与 “Chapter,” 相 匹配 的 字符 串 , 而 使 用 “Chapter” 也 将 匹配 同样 的 行 。 
应 人 而， 有 -种 不 同 的 情况 -一 如果 “Chapterf” 出 现在 行 量 。 因 为 通配符 不 匹配 换 
行 符 ,所 以 “Chapter.” 不 匹配 奢 : 行 ， 而 固定 字 竺 串 模式 “Chapter” 则 匹配 那 - 
行 。 





编 与 正则 表达 式 


为 了 所 有 实用 化 的 用 途 , 你 可 以 通过 使 用 程序 产生 正确 的 结果 。 然 而 ， 并 不 意味 着 
程序 总 是 如 你 所 愿 那 梯 目 确 地 工作 。 多 数 情 况 下 ， 如 果 程 序 不 能 产生 想 要 的 输出 ， 
可 以 断定 真正 的 问题 【排除 输入 或 语法 错误 ) 在 于 如 柯 朱 述 想 要 的 东西 。 


换 名 话说, 应 该 考虑 记 正 问题 的 地 方 是 撕 述 想 枚 的 结果 的 表达 式 。 表 达 式 不 完整 或 
者 公式 表示 得 不 正确 。 例 如 ， 如 果 程 序 计 算 下 面 的 表 达 式 : 


PAY 一 册 忆 ER 写 DRY + 53 


并 知道 这 些 变 屋 的 慎 ， 它 将 计算 出 上 确 的 结果 。 但 是 有 大 会 反对 ， 因 为 公 蕊 没有 说 
明 销 货 人 员 , 他 也 得 到 了 一 份 谢 金 。 所 以 为 了 模 述 这 种 情况 ,这 个 表达 式 需 要 重新 
用 公式 表示 为 : 
PAY 一 WEEKLT SATARY * 52 + YYZOMMITSSIOM 

也 许 你 会 认为 ,编写 第 一 个 表达 式 的 人 没有 完全 理解 问题 所 涉及 的 范围 , 因此 不 能 
很 好 地 进行 描述 。 知道 如 傈 详尽 地 进行 描述 是 很 重要 的 . 如 果 请 求 某 大 为 你 拿 一 本 
拉 ， 而 且 如 果 摆 在 面前 有 很 多 书 ， 那 么 就 需要 更 加 明确 地 撒 述 你 想 要 的 书 【或 者 满 
足 于 不 确定 的 选择 过 程 )。 





这 同样 适用 于 证 则 表达 式 。 程 序 (例如 Brep) 简单 而 且 容 易 使 用 。 理解 正则 表达 式 
的 元 素 也 不 难 。 正则 表达 式 允 许 编写 简单 的 或 复杂 的 模式 描述 。 而 使 编写 正则 表达 
式 很 难 { 和 有 趣 ; 的 因素 是 应 用 的 复杂 人 性 模式 出 现在 各 种 不 同 的 情况 和 上 下 文中 。 
复杂 性 是 语言 本 身 所 固有 的 , 就 像 你 并 不 总 能 通过 查寻 字典 来 获得 某 个 语义 的 正确 
理解 一 样 。 


编写 正则 喜 达 式 的 过 程 竹 及 了 个 步 又 : 


1， 和 旬 道 要 瞻 配 的 内 容 以 及 它 如 何 出 现在 文本 中 
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2 网 与 -个 模式 米 撕 述 此 时 配 的 内 容 ， 
3 出 读 模 式 来 查看 它 此 配 的 内 容 。 
这 个 过 程 实质 上 与 程 岸 员 开 发 程序 的 过 程 相似 。 步骤 1 可 以 当做 规范 ,， 它 反映 理解 


时 解决 的 问题 以 及 如 们 饼 决 它 。 步 最 2 类似 本 编号 程序 代码 ， 而 步 呈 3 相当 于 运行 
程序 并 根据 规 涡 铀 试 它 ， 步 野 2 和 步 野 3 了 需 重复 进行 ， 直 到 程序 令 人 满意 为 止 。 





对 匹 师 描述 进行 测试 可 以 确保 这 个 摘 述 和 所 期 待 的 一 样 。 它 通常 揭示 一 些 令 人 惊奇 
的 事 。 仔 细 检 可 测试 的 结果 、 比 较 和 输出 和 输入 ,这 可 以 大 大 地 提高 对 正则 表达 式 的 
理解 。 可 以 按 下 面 的 方式 解析 模式 匹配 的 结果 : 


ils 【 击 中 ) 

这 是 我 在 要 丝 名 的 行 ， 
jz5sezs 【天 抽出 ) 

这 基 我 不 想 匹 配 的 行 。 


人 missiongf 【『 坦 洒 ) 
这 是 我 不 能 匹配 但 想 要 匹配 的 行 。 


Fafge azrns 【这 警 芒 ) 
这 是 我 术 想 号 配 的 丛 邯 匹配 了 的 行 。 


尝试 完善 模式 的 撒 述 也 可 以 从 对 立 端 解决 串 以 试 着 通过 限制 可 能 的 匡 配 来 排除 假 
属 报 ， 通 常 扩展 可 能 的 匹配 来 试 着 捕获 遗漏 。 


当 你 必须 使 用 固定 的 字符 串 描述 模式 时 ,困难 尤其 明显 。 从 固定 字符 圳 的 模式 中 叶 
除 每 个 字符 都 会 增加 可 能 的 匹配 数量 。 例 如 ， 当 搜索 字符 串 “what” 时 ， 还 决定 匹 
配 “What"， 那 么 同时 匹 息 “What” 和 “what” 的 惟一 的 固定 字符 串 模式 是 “hat* 
即 两 者 共用 的 最 长 的 字符 串 - 显然 , 搜索 “hat” 将 产生 不 根 要 的 匹配 。 给 固定 字符 
串 模式 添加 每 个 宁 符 都 可 能 减少 匹配 数量 。 字符 中 “them” 遂 常 比 字 符 串 “the 产 
生 的 匹配 更 少 。 


在 扩大 和 缩小 匹配 范围 方面 , 在 模式 中 使 用 元 字符 可 以 提供 更 天 的 灵 医 性 。 与 字面 
值 或 其 他 元 字符 组 合 使 用 可 以 扩展 匹配 的 范围 ， 同 时 也 减少 了 不 想 匹 配 的 范围 。 


了 0 


机 
才 





字符 类 


字符 党 是 对 通配符 概 念 的 改进 。 我 们 可 以 列 册 要 匹配 的 字符 , 而 不是 匹配 特殊 位 置 
的 任意 字符 。 使 用 方 括 吕 天宇 符 《[ ]) 将 宁 符 列表 括 起 来 其 中 每 个 字符 占据 一 
个 你 置 。 


字符 类 企 处 理 大 写 和 小 字 母 时 非常 有 璀 。 伍 记 ， 妇 果 “what” 可 能 以 普 字 母 大 党 
或 小 号 的 握 式 出 现 ， 则 可 以 指定 ;: 


[名 ww] Psc 


这 个 正则 才 达 式 可 以 匹 虽 “what” 或 “wbat”。 它 匹配 包含 这 4 个 字符 的 字符 串 的 
任意 行 , 第 一 个 字符 是 “ 殉 ” 或 “可 ”因此 . 它 可 以 上 下 配 “Whatever” 或 “somewhat” ， 


如 果 “个 文件 中 包含 结 校 人 和 例如 : . 卫 1 , . 开 2 ,了 3 等 等 ， 那 么 可 以 用 下 面 
的 正则 表达 式 棍 取 这 些 行 中 的 任 疮 - 


\.HEI1234s] 
这 -模式 此 配 包含 3 信 宇 符 的 字符 串 ， 最 后 -- 个 字符 是 从 1 到 5 的 任意 数字 。 


UNIX shell 使 用 相同 的 语法 ， 因 此 ， 可 以 使 用 字符 类 在 UNIX 命令 中 指定 文件 名 。 
例 刘 ， 为 了 从 一 组 由 章 组 成 的 文件 中 提取 标题 可 能 要 输入: 


S$ gzezp "HE [za3]1 cho [12] 

cehbl1:.H- "ContentSs DE DisLripucion 了 ap 
Rh : -月 ”1 也 3 二] 1 后 ne SOEtWwazre" 
chbl:sPh- "Pont 人 II 十 he SYSskernt' 

&ho]l: -HZ "SPecifyzno Input Devices 
RhO1 3: .HH3 "sing 可 the Touch 号 creen" 
cheI:.H3 "sng the Mouse" 

Ch : -HZ2 "SBecifYy1LDG EriInEerS " 

ChDD 3 .HRTL CC 全 工 r 它 ” 号 芋 瑟 工 臣 全 可" 

ChuU2xe.H2 呈 QULCK Tour 


注意 必须 用 引导 引 作 其 中 的 模式 ， 以 便 把 它 传递 给 Brep 而 不 只 是 由 shell 解释 ， 由 
昧 早产 生 的 输出 为 每 个 要 打印 的 行 部 标识 了 文件 名 。 作 为 字符 类 的 另 -- 个 示例 , 假 
设想 守 指 定 不 同 的 的 和 标 点 符号 来 结束 句子 : 
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这 个 表达 成 匹 配 “ 任 总 后 而 有 一 个 感 吧 号 ,问号 . 分 号 . 冉 号 . 逼 导 . 引号 或 句点 ， 
随后 是 责 个 空 覆 和 任意 个 条 答 的 学 符 ” 它 可 以 振 寺 寻找 在 “个 名 子 的 结束 和 风 一 
个 凤 子 的 并 头 之 间 有 了 两 个 空格 的 地 方 《 当 行 中 在 这 和 神情 说 时 ) ,注意 .在 记 个 表达 
蕊 中 在 3 个 点 ， 第 -个 和 最 后 一个 点 是 通配符 元 条 符 ， 但 站 第 一 人 点 儿科 为 宁 有 各 
区 。 和 在 方 括号 中 ,标准 的 元 字符 会 朱 去 它们 的 含 艾 。 肉 此 ， 方 括号 中 的 点 表示 一 

人 句 总 。 表 3-2 列 出 了 方 括号 中 其 有 特殊 含 交 的 字符 。 





表 3-2: 字符 类 中 的 特殊 字符 





字符 3 能 
， 转 义 任 春 特殊 字符 (只 用 上 awk 由) 

当 它 不 在 第 “个 或 最 后 :个 位 置 时 ， 表 示 “个 范围 
“ 1 仅 当 在 第 “个 信和 壮 时 表示 反 转 号 配 





反 斜 杠 只 在 awk 中 古 特 多 的 ， 因 此 可 以 使 用 字符 类 “[a1]” 以 匹配 一 个 a、 -个 | 
或 个 1 





字符 的 范围 


连 字 符 〈-) 用 本 指定 一 个 字符 范围 ， 例 如 ， 所 有 大 写 英 文字 盘 【 注 3) 的 范围 二 以 
指定 为 : 


-总 - 忆 ] 


… 个 数字 的 数字 范围 可 以 指定 为 : 





该 宁 符 业 有 助 于 解决 匹配 文章 5 引用 的 问题 。 请 看 下 洛 的 正则 表达 式 : 


LSCPaPter [ 工 - 吨 ] 





注 3: 实际 上 当 处 理 非 ASC11 字 导 集 和 /或 非 美 语 时 ， 这 会 非常 泥 筷 。，PDSIX 标准 解决 了 
这 个 问题 ， 后 面 会 看 到 前 的 POSIX 特 芷 。 
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心 匹 配 字 符 串 “chapter” 或 “Chapter” 旦 其 后 南 跟 有 空格 ， 然 后 是 从 1 到 9 的 任意 
单个 数字 ， 上 下 面 的 每 一 行者 虑 配 这 种 模式 : 





You wz11 TirCS the lnzeornation in chapcer 字 
arQ_ ChapLcr II2。 
&haBber 和 Ce-a2na 引号 Jmrmary at ne ena， 


根据 这 个 任务 ,本 例 中 的 第 二 行 可 以 看 籁 是 假 警 报 。 可 以 在 “L1- 别 ”之 后 添加 空格 
来 避 人 先 匹配 两 个 数字 。 也 可 以 指定 不 在 那个 位 置 匹配 的 字符 类 ， 正 如 我 们 在 下 . 节 
要 看 到 的 那样 。 可 以 同时 指定 多 重 范 围 ， 也 可以 混合 使 用 字面 字符 和 字符 范围 : 





9-93a-zs .7: 1 
这 个 表达 式 将 匹配 “任意 单个 字符 ， 可 以 是 数字 、 小 写字 母 . 问号 . 逗 巡 , 句点 分 


号 、 冒 号 、 单 引导 或 引号 "。 记 和 件 每 个 字符 类 都 匹配 单个 字符 。 如 果 指 定 多 个 类 ， 串 
以 搞 述 多 个 连续 的 字符 ， 例 如: 





[-2 上 -1T.31] 
这 个 表达 式 匹 配 “ 任 意 后 面 跟 有 名 点 、 问 号 或 感叹 号 的 小 写 或 大 写字 母 "。 


如 果 局 揪 号 (]) 是 作为 娄 中 的 第 一 个 字符 出 现 【 或 者 是 聪 字符 后 的 第 一 个 字符 ,条 
见 下 “ 节 ) :那么 它 就 被 解释 为 类 的 一 个 成 员 . 如 果 连 字符 在 一 个 类 中 是 第 -个 或 最 
后 一 个 字符 ， 则 失去 其 特殊 含义 。 因 此 ,为 了 匹配 千 术 操作 符 ， 我 们 在 下 面 的 示例 
中 将 连 字符 (-) 放 在 第 一 位 : 


[1 
在 awk 中 , 还 可 以 使 用 反 斜 杆 转 浆 在 范围 中 出 更 的 连 字 符 或 闲 方 括 号 ,但 是 语法 更 
杂乱 了 。 
警 武 用 正则 表达 式 匹 配 日 期 是 “个 有 趣 的 问题 。 下 面 是 商 种 可 能 的 格式 : 


TO-DD-YY 
JEMXZDDA YY 


下 面 的 正则 表达 式 指 示 每 个 字符 位 置 可 能 的 数值 范围 : 


[0-11 1937T-2i-3210-3] 7]T0-3]11D0-91 
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“或 “ 广 都 二 能 是 定 界 符 .在 第 一 个 位 置 坡 置 连 字 符 确 保 它 在 字符 类 中 解释 为 字 
面 喜 区 ， 即 作为 “个 连 字符 ， 而 不 是 指示 一 个 范围 (证 4) 。 


排除 字符 类 

通常 ,字符 类 包括 企 志 个 位 置 想 竖 匹配 的 所 有 的 字符 , 存 关 中 作为 第 .个 字符 的 脱 
他 答 (7”) 将 类 中 的 所 有 字符 都 排除 在 算 匹配 之 外 。 相 反 ， 除 搞 行 符 【 注 5) 以 外 的 
避 有 列 在 方 括号 中 的 任意 宇 符 都 将 被 匹配 ， 下 面 的 模式 将 此 配 任意 非 数字 字符 : 





Ts*D-9] 
它 匹 配 字 母 表 中 所 有 的 大 写 和 小 与 字母 以 及 所 有 特 跌 字符， 例如 标点 符号 。 


排除 特殊 字符 有 时 比 显 式 地 列 出 想 要 匹配 的 所 有 字符 更 方便 。 例 如 ， 如 果 想 要 匹 
配 任意 辅音 ， 可 以 简单 地 排除 元 音 : 


| “acicul] 
该 表达 工 此 配 任 意 辅 音 ， 大 写 的 任意 元 音 ， 任 意 标 点 符号 或 特殊 的 字符 。 
请 看 下 面 的 止 则 表达 式 : 

5 .D3 “| 


该 表 达 式 匹 扎 宇 符 串 “.DS"” 其 后 依次 跟随 - .个 可 格 、-. 个 双 引 号 、 .个 准 数 字 和 -- 
个 双 引 导 《 广 6。 这 样 设计 是 为 了 避免 匹配 下 而 的 行 : 


.DSS 工 ” 





注 4 注 惠 这 个 表达 式 匹 配 以 指定 定 界 寻 分 员 的 日 期 表达 式 ， 即 使 是“15132178” 这 样 不 可 
能 的 日 期 。 
注 5: 在 awk 中， 接 行 篆 也 可 以 被 匹配 。 


汪 折 : 当 在 命令 行 结尾 处 键入 过 种 模式 时 ， 务 必用 单 引 号 包 国 知 。 脱 宇 荐 “对 最 初 前 Bourne 
shell 是 料 珠 的 。 


这 种 请 法 述 可 以 用 米 限 制 恋 杞 的 范围 ， 正 如 随后 要 看 到 的 那样 。 





POSIX 字符 业 补 充 

POSIX 标 准 对 正则 表达 虑 字符 和 操作 符 的 含 又 进行 了 形式 化 .这 种 和 标 准 定义 了 帅 类 
正则 表达 具 : 基本 的 止 则 表达 式 (BRE)，grep 和 sed 使 用 这 种 正则 春运 式 ; 扩展 的 
正则 表达 式 ，egrep 和 awk 使 用 这 种 正则 表达 式 。 





为 了 适应 非 医 文 的 怀 境 , POSTIX 标 准 增强 了 比 本 不 在 疯 文 字母 袁 中 的 字符 的 字符 类 
的 功能 . 例如， 法 文 上 是 一 个 字母 字符 ,但 是 使 用 典型 的 字符 类 [az] 不 此 配 它 ， 访 
标准 提供 了 附 如 的 字母 序列. 当 引 配 和 整理 (排序 ) 字符 串 数据 时 ， 这 些 字符 序列 
应 读 被 作为 单个 单元 看 待 。 

















POSIX 还 改变 了 常用 的 术语 , 我 们 : 直 称 罗 “字符 类 ”的 东西 在 POSIX 标准 中 称 为 

“ 播 号 表达 式 ”。 在 括号 袁 达 式 中 ,除了 字面 字符 【例如 at 等 等 ) 以 外 ， 还 可 以 有 

其 他 标记 。 如 下 : 

。 ”字符 业 . 由 [: 和 :] 和 包围 的 关键 字 组 成 的 POSIX 字符 类 。 关 键 字 措 述 了 不 向 的 字 
符 类 ， 例 如 ， 文 字 宇 符 ， 控 制 宇 符 等 锯 【参见 表 3-3)。 

。 整理 符 导 。 整理 符号 是 多 字符 的 序列 , 表示 这 些 字符 应 该 被 看 做 是 一 个 单元 。 
它 香 {. 和 .] 包 围 的 字符 组 成 ， 


。 ”等 价 类 。 等 价 迷 列 出 了 应 该 看 做 吨 等 价 的 字符 集 ， 例 如 e 和 #*。 它 由 地 区 化 的 
池 符 元 素 《 由 [= 和 =] 包 围 ) 组 成 。 


所 有 的 这 3 圳 结构 都 必须 出 现在 括号 表达 式 的 方 插 号 中 。 例如 [[:atphas]j 匹 配 任 意 
单个 字母 字符 或 感 哎 号 ,[[.ch-]] 呈 配 整理 拒 素 ch, 但 不 只 匹配 字 有 母 或 字母 h, 在 法 
语 地 区 中 ,[[=e=] 可 以 匹配 任意 e、 或 所 表 3-3 列 出 了 类 及 其 匹配 字符 。 








表 3-3，POSIX 字符 类 
类 | 匹配 字符 


atnum'] 可 打印 的 字符 【包括 空白 字符 ) 
Falphal ,字母 字符 . 
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表 3-3:， POSIX 字符 类 【 续 ) 











类 “匹配 字符 

[blank] : 宇 格 和 制 去 符 

fentrl:] | 控制 六 符 

digit:] 数 下 宁 符 

[grabh:] 可 打 红 的 和 可 和 见 的 【 非 空 格 1 宁 符 
13ower:] 小 芝 宁 符 

Lprint:] 可 打印 的 字符 【包括 空白 字符 ) 
[:punet] 1 标点 符号 字符 

1:space:] | 奈 门 字符 

[upper:] | 坟 号 字符 

[xdjgit'] 的 





当 三 商 完全 实现 了 POSIX 标 准时 , 这些 特征 过 湖 向 sea 和 awk 的 商业 版 接近 。GNU 
awk 和 GNU sed 支持 字符 燃 符 号 ,， 供 不 支持 另外 两 个 拓 吕 符 续 。 可 以 检查 本 地 系统 
净 梢 来 浊 看 空 们 是 稿 可 用， 


因为 这 些 特 征 直人 不 能 被 六 诈 地 应 用 , 本 书 的 层林 不 依赖 它们 ,而且 我 们 要 继续 使 用 
术 请 “字符 美 ”来 表 示 方 括号 中 的 字符 列表 。 


重复 出 现 的 字符 

妊 号 {*) 元 宁 符 表示 它 前 面 的 止 则 表达 式 可 以 出 现 零 次 或 多 次 - 也 就 是 说 , 如 果 它 
修改 了 单个 字符 ， 那 么 该 字符 可以 在 那 昌 也 可 以 不 在 那里 ,并且 如 果 它 在 那里 亚 
可 能 会 不 止 册 现 个。 可 以 使 用 星 号 元 字符 汪 配 出 现在 骨 号 中 的 单词 。 





[四 "hereext 二 [ 
不 管 单词 “hypertext” 是 析出 现在 引 张 中 都 会 被 上 配 ， 


而 且 ， 如 果 由 星 所 修饰 的 字面 字符 确实 存在 ,那么 有 可 能 出 现 多 次 。 例如， 我 们 来 
看 “系列 数字 : 


工 


条 第 三 章 





1 
5 
ET 
器 癌 
1J00 
5060 


正则 表达 起 
[15]0* 

将 匹配 所 有 的 行 ， 而 正则 表达 式 
[15]00 


匹配 除 前 两 行 以 外 的 所 有 的 行 。 第 :个 0 是 字面 值 ， 但 是 第 二 个 由 是 号 修饰 ， 意 味 
着 它 可 能 出 现 也 可 能 不 出 现 . 常 使 用 类 似 的 方法 匹配 一 个 或 多 个 【而 不 是 等 个 或 多 
个 ) 室 格 ， 可 以 使 用 下 面 的 表达 式 来 完成 : 


口 5 


当 星 号 元 字符 前 面 有 句点 元 字符 时 ,表示 匹配 任意 数目 的 字符 。 这 可 用 于 标识 两 个 
周 定 的 字符 串 之 间 的 字符 的 跨 庆 。 如 果 想 要 匹配 引号 中 的 任意 字符 串 ， 可 以 指定 : 
它 匹 配 读 行 上 的 第 一 个 引号 和 最 后 一 个 引号 之 间 的 所 有 字符 以 及 引号 。 使 用 “.”” 进 


行 匹 配 的 范围 总 是 最 天 的 。 目 前 它 似 乎 并 不 重要 , 但 是 一 旦 学 习 赫 换 被 匹配 的 字符 
串 时 这 就 很 重要 了 。 


作为 另 一 个 例子 .一 对 尖 揪 号 是 标记 语言 中 用 来 包围 格式 化 指令 的 普通 符号 , 标记 
语言 如 SGML，HTML 和 Ventura Publisher 。 
通过 指定 下 面 的 表达 式 可 以 打印 带 有 标记 的 所 有 的 行 : 

S SGB'< .> 日 3mDP1e 


当 星 号 用 于 修饰 字符 类 时 ,， 则 可 以 匹配 类 中 的 任 章 数目 的 字符 。 例 如 下 面 5 行 的 示 
例文 件 : 


I_ ean Qo ji 
TI Sannet Oo 工 L 
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T_ Sam mot wo ITIL 
T_ can'z Go 
T_ eant ao 1 


如 果 我 们 想 要 下 配 以 上 语句 中 的 否定 语 甸 ,但 不 上 权 肯定 语句 ,可 以 使 用 下 面 的 下 
则 表达 工 : 


cam [，]mo* -+ 七 


坚 号 使 得 类 中 的 任意 字符 以 任意 顺序 匹配 ， 并 及 匹配 任意 多 次 的 出 贡 ， 如 下 所 示 ; 


站 工 昌 中 “ 如 世 【站 ] 瑟 口 ! ] 二 臣 ”相克 拘 荆 忆 
如 号 TITIOH 本 已 1 十 
习 anm moO- CD 二 十 
Cam' 七 BT 
之 amr cp 了 





FF HH 


有 + 个 成 功 和 1 个 失败 (肯定 语句 )。 注意 如 果 正 则 表达 式 试 图 匹配 字符 串 “can” 秋 
”之 间 的 任意 全 字符 ， 如 下 例 所 示 : 





如 忆 mL 六 七 
它 将 匹配 所 有 的 行 。 
技术 术语 “closure{ 亲 人 对]” 有 匹配 “ 零 次 或 多 次 ”的 能 力 。 egrep 和 awk 使 用 的 元 


字符 扩展 集 提供 了 几 个 非常 有 用 的 closure 的 变化 。 加 号 【+》 匹配 前 面 的 正则 表 闪 
式 的 :次 吉 多 次 出 现 。 前 面 匹配 个 或 多 个 空格 的 示例 可 以 简化 为 : 





口 :， 
元 字符 如 号 可 以 被 涩 为 是 至少 -个 ”的 前 导 字 符 。 事 实 上 , 它 和 许多 人 使 用 的 “*” 
号 相对 应 。 


问号 【?) 匹配 霉 次 或 一 次 册 现 。 例如 , 在 前 面前 示例 中 ,我们 使 用 正则 表达 式 匹 配 
“80286”.“80386” 和 “80486”。 如 果 我 们 还 想 匹 配 字符 串 “8086”， 可 以 用 egrep 
或 awk 编写 正则 表 具 式 : 


80 [234] ?8 


它 匹 本 “80” 后 面 跟 有 一 个 “2，， 一 个 3”， -个 “4 或 者 没有 字符 、 然 后跟 


和 2 第 三 章 








宁 符 串 “86,”。 不 要 得 诡 表 达 蕊 中 的 ? 和 shetl 中 的 ? 道 配 答 。shell 中 的 ?表示 单个 
字 循 ， 半 效 于 止 则 表达 式 中 的 “，， 

















单词 是 什么 ?第 一 部 分 


也 话 你 已 经 发 现 . 有 时 匹配 完 浆 的 单词 很 准 . 俩 如, 如果 想 匹 配 模式 “boek”, 搜索 
会 从 中 包 舍 单间 “book” 和 “books” 的 行 ， 而 旦 示 有 单 闻 “bookish”. “bandgbook” 
和 “booky 。 很 显然 吕 以 在 “boeuk” 前 后 使 用 空格 末 限制 匹配 情况 . 


Lbeaok 六 


然而 ， 这 个 表达 式 具 匹配 单词 “beok”， 它 会 委 掩 它 的 复数 形式 “books”。 为 了 匹 
配 单数 或 复 骆 单词 ， 可 能 要 使 用 星 号 元 宇 符 : 





器 Pcecks*1| 


这 样 就 可 以 号 配 “book” 或 “books"。 然 量 ， 如 果 单 词 后 面 有 名 点， 逗号 、 问 号 或 
引号 时 就 小 会 瑟 号 “book”. 


当 将 星 号 和 通配符 元 字符 (.) 结 侣 起 来 使 用 时, 可 以 号 配 任 意 宇 符 的 霍 次 或 多 次 出 
更 。 在 前 面 的 东 例 中 ， 可 以 像 下 面 这 样 编号 比较 完整 的 正则 表达 式 : 


[JEeek.s [ 


这 个 表达 式 于 本 字符 串 “book”， 其 后 面 跟 有 任意 个 字符 或 没有 字符 ， 最 后 跟着 空 
糙 。 下 面 是 将 要 匹配 的 几 行 : 

HSTe are the DOoKS -hat Yo redqduesLed 

Yas,1itr is good bock Eor chilaqrenm 


IE is ama7tnog to hink tbat LE was ea3lea aa 'harnful book" when 
DC wwBU SET 七 口 LEE ED Of -he Oak YOU DLL eeLievwe 


《注意 只 有 第 二 行 串 以 和 固定 字符 串 “ 口 book 口 ” 匹 配 .) 表 这 式 “ 口 book.* 口 ” 
中 配 包 含 类 似 于 单亲 “booky”.“bookworm” 和 “bookish” 的 行 。 通 过 使 用 不 同 的 
修饰 符 可 以 排除 这 些 匹 配 中 的 师 种 . 问号 (?) 是 元 字符 的 扩展 集 的 “部 分 , 匹配 前 
面 表达 式 的 和 次 或 1 次 出 现 。 因 此 ， 表 达 蕊 





book.?>_ | 


了 和解 正 则 表达 式 语 法 吕 





特 与 “book”, “baoeks” 和 “Booky” 匹 配 ， 而 不 与 “beokish” 和 “bookworm” 此 
配 。 为 了 排除 类 位 “bopcky” 这样 的 单词 , 我 们 可 以 使 用 字符 类 来 指定 想 里 此 配 的 位 
置 的 所 有 字符 。 而 由 ,因为 死 字符 问号 在 sed 中 不 可 用 , 我们 必须 求助 于 字符 类 , 这 
些 在 后 而 将 会 看 到 。 


党 试用 正则 表达 式 包 括 “ 切 并 不 实际 , 尤其 是 在 使 用 grep 时 . 有 时 最 好 使 表达 式 保 
持 简 单 并 人 允许 遗漏 。 然 而 ， 当 在 sed 中 使 用 正则 表达 式 进行 替换 时 ， 就 希 要 注意 的 
是 使 用 的 表达 式 应 该 完整 。 在 本 章 “ 单 词 是 什么 ?第 一 部 分 " 中 我 们 将 会 看 到 用 十 搜 
索 单 词 更 全 面 的 止 则 表达 式 。 


定位 元 字符 

有 两 个 元 字符 用 于 指定 字符 串 出 现在 行 首 或 行 本 的 上 下 文 。 脱 字符 (“*) 元 字符 是 指 
示 行 井 始 的 单字 符 正 则 表达 式 。 美 元 符号 ($) 元 字符 是 指示 行 姑 昆 的 单字 符 的 正则 
表达 式 。 这 些 通 常 称 为 “定位 符 ”, 因为 它们 将 匹配 腿 定 在 特定 位 置 。 例如, 可 以 使 
用 以 下 表达 式 打印 以 制 表 符 开始 的 行 : 


(表示 可 见 的 制 表 符 ， 它 实际 上 是 不 可 见 的 。) 没有 元 字符 ， 这 个 表达 式 将 打印 
包含 制 表 符 的 任意 行 。 


通常 ， 使 用 衬 输 人 要 由 tro 太 处 理 的 文本 ， 并 且 木 想 让 空格 出 现在 行 的 结尾 。 如 果 
想 提 到 (并 删除 ) 它们 ,下 面 的 正则 表达 式 可 以 匹配 在 结 雇 处 有 一- 个 或 多 个 空格 的 
行 : 





四 口 *s 











to 各 请 求 和 宏 必 须 在 行 的 开始 处 输入 。 它们 是 两 个 字符 的 宇 符 奸 , 前 面 带 有 一 个 名 
点 。 如 有 果 请 求 或 安 有 一 个 参数 ,那么 它 通 常 后 沸 跟 有 :个 空格 。 用 于 搜索 这 样 的 请 
求 的 正则 表 运 式 症 : 





站 











这 个 表达 式 匹 配 “ 行 首 有 - 个 句点 , 随后 眼 有 两 个 字符 的 字符 串 ,然后 是 一 个 空格 
的 行 ”。 


re 
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可 以 使 用 两 个 连续 的 定位 匹 字 答 来 匹配 空 行 ， 妈 : 


本 


可 以 使 用 这 种 模式 计算 文件 中 的 空 行 数 ， 在 于 ep 中 使 用 计数 选项 -e 


5 grGp -CG “和 Ch04 
| 


如 果 想 使 用 sed 来 删除 空 行 ,那么 这 个 正则 表 返 式 很 有 有 用。 下面 的 正则 表达 式 可 用 
于 匹配 空 行 ， 即 使 其 中 包含 空格 : 
四 
同样 ， 可 以 合用 以 下 表达 式 匹配 整个 行 : 
这 可 能 是 你 想 使 用 sed 来 处 理 的 事情 。 


在 sed (和 Srep) 中 ， 只 有 当 “*” 和 “$” 分别 出 现在 正则 表达 式 的 开始 或 结 屁 时 
才 是 特殊 的 . 因此 “*^abc” 意 味 着 “匹配 只 处 十 行 的 开始 处 的 字母 a、b 和 c”， 而 
“ab^c” 意 球 着 “ 严 配 处 于 行 的 任意 位 置 的 a、b、 字 面 ^《， 然 后 是 c"。 这 对 于 “$” 
同样 适用 . 


在 awk 中 则 不 局 ,“*” 和 “$” 总 是 特 听 的 ， 即 使 它 杂 可 能 使 编写 的 正则 玫 达 式 不 
匹配 任 亲 东西 。 可 以 说 ， 在 awk 中 ,， 当 想 要 匹 权 字 面 “^” 或 “$” 时 ， 不 管 它 处 于 
正则 表 运 式 的 什么 位 置 都 应 该 用 反 竺 械 对 其 进行 转交 。 


短语 

模式 匹配 的 程序 (例如 grep ) 不 能 匹配 跨 琴 行 的 字 竺 串 。 册 于 所 有 特殊 的 目的 , 才 
保证 杞 配 短 语 是 朵 难 的 . 记 住 ， 文 本 文件 基本 上 是 无 结构 的 ,而 且 换 行 位 置 是 随机 
的 。 如 果 要 寻找 单 记 的 任意 序列 ， 它 们 也 许 册 现在 - 行 土 ， 但 也 许 被 分 成 两 行 。 


可 以 编写 系列 正则 表达 式 捕 获 -全 短语， 例如 : 


而 1 men TO 
鱼 TCS 呈 


AIDY 


了 解 正 则 衣 达 式 语 法 忆 





这 并 不 完美 ,因为 第 一 个 正则 表达 式 亚 杷 行 结尾 处 的 “Almond"， 而 不 管 下 一 行 是 
否 以 “Joy” 下 始 , 第 二 个 正则 表达 式 也 存在 同样 的 问题 ， 


稍 后 将 在 介绍 sed 时 ， 介 绍 如 何 严 配 多 行 模式 ， 并 且 介 绍 -个 shell 基本 ， 它 与 sed 
结合 使 用 ， 幸 供 了 - 种 通用 的 方式 来 解决 启 问 题 。 


字符 的 跨度 


这 个 元 字符 指示 了 -个 不 确定 的 长 度 ,， 这 允许 你 指定 重 揽 出 现 的 字符 .考虑 下 面 的 
表达 蕊 : 


1 总 

荆 工 得 

二 工 LT 
LI112:114:12211-11121312113111310 


这 些 元 字符 使 正则 表达 式 具 有 了 伸缩 性 。 


现在 我 们 来 看 一 对 用 于 指定 跨度 并 诀 定 跨 度 长 产 的 元 字符 . 可 以 指定 一 个 字面 字符 
或 正则 表达 式 出 现 的 最 小 或 最 大 次 数 。 


在 rep 和 sed 中 使 用 \{ 和 \ 并 注 7)。POSIX egrep 和 POSIX awk 使 用 { 和 }。 在 在 
何 情况 下 ， 大 括号 包围 :个 或 两 个 参数 。 





As 


和 严 是 0 到 255 之 闻 的 整数 。 如 果 只 指定 \fm]} 本 身 ， 那 么 将 精确 匹配 前 面 的 字符 
或 正则 表达 成 的 旦 次 出 现 。 如 果 指 定 fn ， 那 么 就 匹配 出 现 的 次 数 为 上 和 产 之 间 
的 任意 数 【《 注 8)。 





证 3: 非常 虽 的 版 本 可 能 涩 有 它们 ; Caycat emiptor。 
注 肥 : 注意 “?” 等 从 于 “MO “* ”于 价 于 “WO +” 和 车 价 于 “{A "， 芝 有 闻 前 
于 “MI” 的 情 饰 符 。 
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例如 ， 下 而 的 袁 和 法式 将 匹配 “1001”, “10001” 和 “100001”， 但 是 不 匹 和 “101” 
或 “1000001” 


10.42:d4Y]1 
这 对 元 字符 对 于 严 配 国定 长 度 宁 段 中 的 数据 非常 有 采 , 数据 可 能 是 从 数据 库 中 提 肥 
的 , 它 也 用 十 匹配 格式 化 数据 ,例如 电话 号 码 , G.38 福 会 保险 号 , 库存 零件 1D 等 等 。 


例如 , 社会 保险 号 的 格式 为 : 3 个 数字 ，- 个 连 字 符 ， 再 跟 2 个 数字 , 一 个 连 字 符 ， 
然后 是 4 个 数字 。 可 以 撕 述 为 以 下 模式 : 


-919a90-9 -To-9glvtdsl 
类 似 地 ， 北 美 地 区 的 电话 号 码 可 以 用 下 面 的 止 则 表达 上 东 找 述 : 
[0-S] 139 919-9] 44 
如 果 使 用 PSIX 之 前 的 swk ,大 括号 就 不 可 用 , 只 能 简单 地 重复 适当 次 数 的 字符 奖 


-号 [91.0 1]-[0- 呈 ]. 旺 - 量 ] 总- 乌 ] 0- 呈 1 


选择 性 操作 


坚 线 (1 元 字符 是 元 字符 扩展 集 的 一 部 分 ， 用 于 指定 正则 表达 式 的 联合 。 如 果 某 行 
下 配 其 中 的 .个 止 则 表达 式 ， 那 么 它 就 匹配 该 模式 。 例 如 ， 正 则 表达 式 : 


UNT 导 | DLLNUX 


将 匹配 包含 字符 昌 “UNIX” 或 字符 捉 “LINUX” 的 行 ， 可 以 指定 更 多 的 选择 ， 例 
如 : 


UNIX|TIENUX|NETBS” 
表示 使 用 egrep 打印 匹配 这 3 种 模式 中 任意 “种 的 行 。 


在 sed 中 ， 没 有 联合 元 字符 ， 可 以 分 别 猎 定 每 种 模式 。 在 下 一 节 中 ， 我 们 将 郑 典 分 
组 的 操作 ， 我 们 将 看 到 关于 这 全 元 字符 的 其 他 示例 。 





了 解 正 则 表达 趟 语法 全 





分 组 操作 

略 括 号 {) 用 工 村 止 则 才 达 式 进 行 分 组 并 设置 批 先 级 。 泥 们 是 元 字符 扩展 集 的 - -部 
分 。 假设 在 文本 文件 中 将 公 本 的 名 池 称 为 “BigOne” 或 “BigOne Computer”， 使 
用 雪夫 志 ; 


SoCme LesmBLesr 3 





将 匹配 字符 中 “BigDne” 本 身 或 后 面 跟 有 -个 字符 串 “ 口 Computer” 的 形式 ， 同 
样 ， 有些 术语 有 时 会 用 全 寿 ， 有 时 会 用 缩写 ， 则 可 以 使 用 : 
全 “各 本 工程 下 “ 卫 总 上 【 品 荆 站 七 CE 全 3 如" 贡 吉 本】 ,二 二 名 七 


3e11 DabolaLorias buUucent bechrolLogles 
3 上 Datra 


可 以 使 用 坚 线 和 办 括号 来 对 选择 性 操作 进行 分 组 。 在 下 面 的 示例 中 , 我 们 使 用 它 来 
指定 与 单间 “company” 的 单数 或 复数 号 到。 


ompan fy| es] 


旨 注 意 , 在 大 多 数 sed 和 grep 的 版 本 中 不 能 对 加 圆 括号 的 -组 字符 占用 数 和 其 词 , 但 
是 在 egrep 和 awk 的 所 有 版 本 中 都 是 可 以 的 。 


单词 是 什么 ?第 二 部 分 


我 们 来 使 用 我 们 所 讨论 的 新 的 元 字符 ,来 重新 构建 搜索 单个 单词 的 正则 表达 式 。 首 
先 我 们 试 着 为 grep 编写 :个 如 下 的 正则 表达 式 ， 用 它 来 搜索 单词 : 


[Poeex .* 四 





这 个 表达 式 非常 简单 ， 它 匹配 的 模式 为 : -个 空格 后 曾 是 字符 串 “boek”, 再 后 面 是 
任意 数量 的 字符 和 一 个 空格 。 然而 , 它 不 能 号 配 所 有 可 能 的 册 击 并 且 它 还 匹配 了 几 
个 错误 单词 。 





下 面 的 测试 文件 包含 许多 “book”. 我 们 请 加 一 -个 符号 , 它 不 妊 于 文件 的 部 分 , 用 它 
来 提示 输入 行 症 “ 击 中 ”(> } 并 且 包 括 在 输出 中 ， 术 是 “未 击 中 ”(<)。 这 里 包括 
了 怎 可 能 多 的 不 同 示例 。 
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几 六 


机 站 站 古 


丰 


当 我 们 搜索 单词 “hook” 的 出 现时 .应 该 有 13 行 此 配 ,7 行 不 匹配 。 首 先 ， 我 们 对 
示例 文件 执行 以 前 的 正则 表 近 式 并 检查 结果 。 
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它 只 打印 我 们 想 要 姨 配 的 13 行 中 的 8 行 ， 并 打印 我 们 不 想 匹 配 的 行 中 的 2 行 。 记 个 
表达 式 匹 配 包 售 单 词 “booky” 积 “bookish” 的 行 ， 它 忽略 了 行 开 始 和 结尾 处 的 
“book 。 当 读 及 某 种 标点 符号 时 它 关 略 “pook " 。 


为 了 进一步 限制 搜索 ,我 们 必须 使 用 字符 类 。 一 般 地 ， 可 以 结束 单词 的 字符 列表 是 
标点 符号 ， 例 如 : 
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另外 ， 引 苇 、 贺 揪 号 .大 括号 和 方 插 号 可 以 包围 一 个 单词 或 出 现在 单词 的 堪 侧 或 右 
侧 : 


人 


你 还 任 须 调 单 词 的 复数 或 所 有 格 形 式 。 





因此 ,应 该 有 了 遇 种 不 同 的 字符 类 : 单词 之 前 和 单 辣 过 后 。 记 住 我 们 必须 做 的 就 是 列 
出 方 括号 中 的 类 的 成 员 。 人 在 单词 前 面 使 用 : 


[人 t 
在 单词 后 面 使 用 : 
上 1” 


奖 注 意 , 在 类 中 第 一 个 位 置 放 置 闲 方 括 号 ， 表 示 它 是 类 的 成 员 而 不 是 关闭 括号 。 将 
以 上 两 个 类 坡 在 一 起 ， 我 们 得 到 下 面 的 表达 式 : 


对 初学 者 显示 这 些 肉 容 ,会 使 他 们 因为 绝望 而 旋 厅 ! 但 是 在 了 解 了 有 关 的 原理 之 后 ， 

就 不 仅 可 以 理解 这 个 表达 式 , 而 卫 能 很 容易 地 重 构 它 。 让 我 们 看 看 它 企 示例 文件 中 

是 如 何 运行 的 { 我 们 使 用 双 引 号 引 住 单 引 号 字符 ， 然 后 在 嵌 人 的 双 引 号 的 前 面 区 置 
:个 反 介 机: ， 


矶 GTBEB [AS [fbook[] Vs] 和 OOKEWaT 人 Li 

了 秆 主 呈 天 了 已 不 司 号- 全 二 OOT DOK 守 BaF1iOUS 各 了 肌 人 有 上 SUICO 五 吕 
忌 E_ WE1L1 She PLuUIal boeks ar 纪 

三 日 工人 己 二 BOX2 ND . 

L 吕 ] 马 七 hem 忌 记 Cut (he Book until 1 

用 人 全 只 工 《he DocokSs “haTr YoU FTeGueSLefL 

Yes，it is a good booxs tor chilaren 

记 fnazing that it was cailed Ba rnharmflll booX" when 

局 TIC 合 WDU 林 忆 七 上 局 二 避 全 D 癌 吕 丰 heE PPeeok yoDu can 曲 eTiewve 


我 们 排除 了 不 想 要 的 行 ， 但 是 有 4 行 我 们 没有 得 到 。 让 我 们 来 检查 这 4 行 : 


PPOoK at Le beginning cf 昌 工 im 书 工 
妃 t he enad DO 二 二 mne Dook 

"了 和 其 站 二 上 片 季 人 二 也 本 上， 

血 和 六 站 开 蔬 巴 所 K 1 
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所 有 这 些 都 是 由 在 行 的 开始 处 或 结尾 处 出 现 的 字符 串 所 导数 的 错误 。 因 为 在 行 的 开 
始 处 或 结尾 处 没有 空格 ， 所 以 模式 不 被 匹 肥 。 可 以 使 用 定位 元 字符 ”和 $。 因 为 要 
匹配 :个 空格 或 行 的 开始 或 结尾 ， 可 以 使 用 司 rep 并 指定 的 “或 ”元 字符 ， 同 时 用 
落 括 号 分 隔 ， 例 如 ， 为 了 匹配 行 的 开始 或 个 空格 ， 可 以 编写 下 面 的 囊 达 式 : 


人 


“因为 1 和 0 是 元 字符 的 扩展 集 的 一 部 分 ， 所 以 如 果 使 用 的 是 sed， 则 必须 编写 不 同 
的 表达 式 来 处 理 每 “种 情 识 .) 


下 面 是 修订 过 的 正则 表达 式 : 
人 Pocok[ 站 Ha. 5331*T |) 
纲 在 我 们 米 看 看 它 如 何 工 作 : 


Sagrep “fj ) [Y" Crbook[j) rzv1 is 819( |8 ”Dookworde 
Th 3 = 七 este Ter haock :warIous Diace5 such 只 S 
EeeBK BE <mRe DegicnInd DT 吉 1ine oz 

at the snmad ct Ime aook 

3S we 上 1 站 5 EUTaL books anq 

“BOK 2 二 he year waT 司 ， 

十 安 开放 二 二 二 OOT 羡 13mne WILLtP EPE wd “区 Cok" 

呈 GREAT Pookl 

点 Greek Pooka No. 

(1C 十]Em abpout 5Ehe Pocoksl unti]l 

HEF 全 司 C 下 全 区 站 中 KE 二 瑟 3 本 YOJ TeSVeS 七 寻 

YeS，14 :8 省 ocd hoaok for child=er 

mazing 可 二 hat it wag Callead aharmfu- book when 

Rnee YpPU Pt cao ne End of Le hock，y7ou canrt PPeltewve 


这 确实 是 一 个 复杂 的 正则 表 这 式 ， 然 而 ,村 以 将 它 分 成 几 个 部 分 。 这 个 表达 式 也 许 
不 此 配 每 个 单 一 的 实例 ， 但 大 可 以 很 容易 对 它 进 行 改 写 来 处 理 其 他 情况 。 


你 也 可 以 创建 - -个 简单 的 shell 翔 本 ， 用 命令 行 参数 取代 “book"。 惟 -- 的 问题 足音 
讨 的 复数 着 不 总 是 “s”， 采 用 手工 修改 的 方法 ， 可 以 通过 给 单 词 后面 的 字 答 类 添加 
”来 处 理 “es” 复数 ， 它 在 许多 精 况 下 都 可 以 工作 。 


党 要 进步 证 总 的 是 ,所 和 Yi 文本 编辑 器 使 用 特 珠 的 元 字符 \< 和 、\> ,分别 匹配 单 
闷 开 始 处 和 结尾 处 的 字符 串 。 当 它们 作为 -对 使 用 时 ， 它们 只 和 那些 是 完整 单词 的 
革 符 串 严 配 【对 于 这 些 操作 符 ， 单 词 是 将 非 空 梢 且 两 侧 为 空格 的 字符 申 , 或 者 指 在 
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行 的 开始 或 结尾 处 的 字符 串 ) ,如 果 这 些 元 字符 可 用 于 所 有 的 正则 袁 达 式 ,那么 这 些 
元 字符 可 以 得 到 六 旋 的 应 用 ， 因 为 正本 单词 是 -- 种 非常 普遍 的 操作 《 注 9)， 


在 这 里 替换 


当 使 用 grep 时 ,上 要 能 匹 电 就行， 至 于 友人 何 号 配 很 少 会 有 问题 。 然 而 ， 当 想 要 进行 
替换 时 ， 就 必须 考虑 匹配 的 范围 。 那 么 ， 行 上 的 什么 字符 是 实际 上 匹配 的 呢 ? 


在 本 节 中 , 我 们 将 看 用 个 演示 匹配 范 赎 的 示例 。 然后 我 们 将 使 用 类 似 色 ep 的 .个 各 
序 , 但 它 还 充 许 指定 桩 换 字符 串 。 最 后 ,我 们 将 看 儿 个 用 于 描述 粹 杭 字 符 串 的 卸 字 
符 ， 


匹配 的 范围 
让 我 们 来 看 下 面 的 正则 表达 式 ; 
到 * 


这 个 表达 式 匹 配 “ 零 次 或 多 次 出 现 的 A, 问 时 和 后 面 跟 字 符 Z”"。 尼 产生 的 结果 与 仅 
仅 指定 “Z” 是 相同 的 。 字 符 “A” 可 能 在 那里 岂可 能 不 在 那里 ， 事实 上 ,字符 “Z” 
是 惟一 匹配 的 字符 。 十 面 是 一 个 两 行 的 示例 文件 : 


1 ecE os incluaarg sioopy，ouor aog 
Soma az Us，-qacluaings zipBPy，pur dog 


如 果 我 们 党 试 匹配 前 面 的 正则 表 运 式 ， 那 么 就 会 打印 两 行 。 有 趣 的 是 , 这 两 种 情况 
下 的 真 正 的 吴 配 都 作用 十 “Z” 而 且 上 只 有 “Z”。 我 们 可 以 使 用 gres 命令 (参见 后 面 
“人 第 成 单个 替换 的 程序 ") 演示 匹配 的 范围 ， 

所 人 基 昌 号 1 六 业 攻 "” "站 各 ”七 名 本 七 


nm DFIF us，5i9eluading nppby，aur dog 
Socme of us，1LICluaingdg DO0ippy，our dog 





注 余 GNU 程序 ， 例 如 awk 的 GUN 版 素 ，sed Brep 出 部 支持 \< 和 > 


6 好 第 


| 
挤 














生成 单个 替换 的 程序 
MKS 工具 包 【 和 由 RNoriice Kern Systems 公司 开发 的 用 于 DOS 的 一 组 UNIX 实 
用 工具 ) 筷 售 一 休 被 称 为 gres 【全 局 的 正则 表达 式 替 接 ) 的 非常 有 用 的 程序 ， 
戴 像 grep 一 样 ， 它 在 文件 中 搜索 一 个 权 式 ， 热 而 ， 它 妈 计 为 要 匹配 前 字符 囊 
看 定 一 个 替 接 ,过 个 程序 于 实 上 是 sed 的 简化 版 本 、 并 且 和 sed 一 样 ， 它 打印 
所 有 的 行 而 不 管 是 否 对 其 执行 了 一 个 埋 接 。 它 不 对 文件 本 身 进 行 替换 。 如 果 想 
保存 更 改 结果 ， 必 须 将 程序 的 输出 重 定向 到 一 个 文件 ， 


gres 不 是 标准 UNI 的 一 部 分 , 但 它 是 非常 好 的 工具 。 它 可 以 使 用 简单 的 shell 
脚本 来 创建 ， 并 通过 调用 sed 完 成 相应 的 功能 。 


和 an7shn 
S 看 十” 可 工 提 刀 
IE [ S#--t 3 1 
LHem1 
全 己 阅 口 S 有 条 站 :可 工 扯 吕 站 刀 攻 下 站 和 工会 情 ]C 二 mieRt 于 二 > 三 
它 XTLTL 工 
fi 
所 已 [全 ITL= 鱼 1 1 
了 晤 肌 二 CETIGDE = 号 了 
IE [ -fgs31] 


chen ! 
三 T]1 所 = 号 了 

后 工 呈 后 
ecnD 33 is met 已 王 ] 电 。 > 到 
人 XIt 1] 

和 

echo tr 02，35002， 7 #【 注 10) 





SEE 本 一 局 “ 忆 上 由 和 后 忆 七 七 全 上 委 员 $ 工 全 六 BCemenE 坟 让] ee 


本 章 的 其 余部 分 将 使 用 Eres 来 演示 替 摘 元 字符 的 用 法 。 记 住 ， 点 用 也 gres 的 
任何 操作 都 可 以 应 用 于 sed。 这 里 我 们 用 两 个 零 (00) 来 替换 被 正 别 表达 式 “ 和 内. 
*Z” 匹 配 的 字符 趾 。 


台 加 划 日 “ 真 - 放 呈 ” “站 各 ”各 忆 蔬 太 了 训 
DDipPpy， SuTtT 习 eg 

009SY 

DDe1laa 














广 10: echo ltr... 行 虽然 较 复 杂 ,， 但 是 生成 用 获 sed 替 摘 命 他 的 分 卫生 Contrel- 由 轨 广 恒 。 这 
样 做 天 大 地 减 宁 了 分 隔 背 出 理 在 权 式 中 或 蔡 拉 文本 中 的 机 会 。 
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我 们 期 望 第 一 行 上 的 此 配 范围 扩展 为 从 “A ”到 “Z” ， 而 不 仅 是 “Z” 真 正 被 匹配 。 
如 果 我 们 各 微 改动 止 则 表达 点， 结果 就 会 很 明星 : 

”可 以 被 解释 为 出 现 零 次 或 多 次 的 任意 字符 , 这 意味 着 本 以 找到 “出 现任 意 次 的 
字符 ”, 包括 苇 么 也 没有 的 情况 。 昌 个 表 友 式 表示 A 和 2Z 之 间 有 任意 数 日 的 字符 ;“ 扫 ” 
大 模式 中 的 开始 人 学 符 ，“zZ” 是 最 后 -个 字符 ; 在 它们 之 间 可 以 有 任意 多 的 字符 或 没 
有 字符 。 在 有 以 上 两 行 的 文 镍 上 运行 Brep 会 产生 一 行 的 输出 . 我 们 在 所 匹配 的 内 容 
下 面 洽 加 - ' 行 脱 字符 (*^)》 来 标记 所 匹配 的 内 容 。 


瑟 LI1] ET Us，1LPS1LUcLeog opDpYyY， Pazr QQcg 
二 责 丰 中 遇 下 贡 站 贡 直 丰 机 页 址 本 商机 机 上 


匹配 的 范围 从 “A” 到“Z”。 相 同 的 王 则 表达 式 还 匹配 下 面 的 行 : 


工 Pear at on radio staticn wa2 1360 ， 


字符 串 “A.*Z” 下 本 入 后 面 限 有 任意 个 字符 【包括 零 个 字 特 ) 再 跟 有 工 的 卉 式 。 现 
在 ， 让 我 们 看 看 类 似 的 一 组 包 售 “A” 和 “2Z” 的 多 次 出 现 的 示例 行 。 
ALT of us，jineluaing Zippy，cur dog 


有 LT GE ws， TIPelLuQGinog arppy ana Ziggy 
AT of Us，>-neluaing 2aippy anqd 人 iogw anda 2elaa 


正则 表达 式 “A.*Z” 在 每 种 情况 下 都 匹配 可 能 为 最 长 的 范围 。 


瑟 11 DGF us，incluaqaeczy zinppy，our acg 


站 站 真言 责 商机 寺前 商 站 疝 员 页 站 页 昌 商 下 南 员 


all of us，ircluaing Zipoy and YIiGgy 


站 向 丰 站 页 商 中 员 本 丙丁 吉 商 商 症 半生 真 下 机 商 评 本 起 二 商 直 机 


al1 ot us，1ncluding 81LPPY ana Ziggy and zelG6a 


商 站 站 丰 丰 让 页 疝 站 站 高 商 症 真 凋 商 前 商 让 站 半 页 走 商 站 页 员 半 南 瑟 站 二 站 南昌 本 二 国标 下 


这 样 ， 当 我 们 想 要 匹配 最 短 的 范围 时 会 出 问题 。 


种 
出 
十 


人 





限制 范围 


前 面 我 们 说 过 ， 止 则 表达 式 党 试 正 配 最 民 的 字符 串 ， 并 且 这 可 能 会 引起 意 想 不 到 的 
问题 。 例如， 查看 以 下 正则 表达 忒 ， 沁 与 引导 中 的 任意 个 字符 正 配 : 


证 我 们 来 看 有 两 个 用 引号 包 细 的 参数 的 troff 宏 ， 如 下 所 示 : 
-8 “DOPenOLX" Full Programn Listinog- 

要 号 配 第 “个 参数 ， 可 以 用 下 面 的 正则 表达 式 来 描述 匹配 的 横 式 : 
SB 


然而 , 因为 模式 中 的 第 二 个 引号 与 该 行 上 的 最 后 :个 引号 匹配 , 所 以 它 结束 匹配 整 
个 行 。 如 果 知 道 参数 的 个 数 ， 那 么 可 以 对 每 一 个 进行 说 明 : 


人 


虽然 它 可 以 像 所 期 望 的 那样 工作 , 但 是 每 行 也 许 不 会 有 相 疝 数目 的 参数 , 省 略 你 只 
想 归 第 一个 参数 。 这 里 有 个 匹配 两 个 引号 之 间 最 短 范 围 的 正则 表达 式 : 





1 [saywa 


必 嘴 配 引 号 并 且 后 面 跟 有 任意 个 字符 的 情况 ， 世 宅 不 匹配 引号 后 面 跟 有 引号 的 情 
识 : 


呈 OFSB [7 7 007 日 amDD|e 工 二 习 e 
-SEE 00 "FULL Program Listinogs" 


现在 我 们 来 看 看 在 两 列 数字 之 间 使 用 名 点 字符 〔.) 作为 引导 符 的 儿 行 : 


2 1 
100-...-- 0 


这 里 匹配 引导 答 字 符 的 困难 是 它们 的 数量 是 可 变 的 , 假如 想 用 单个 制 表 竹 取代 所 有 
的 引导 符 。 则 可 以 按 下 面 的 形式 编写 一 个 匹配 行 的 正则 表 运 式 : 


[0-9] [8-] wx DO-8] [DO-31* 
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这 个 袁 达 式 也许 会 出 平 意料 地 引 配 下 面 的 行 : 

吕 台 让 SRton 了 .3 
为 了 限制 虑 本， 你 可 以 指定 所 有 行 世 用 句点 的 最 小 数 日 ; 

| 总 -区 TD 
这 个 表达 式 使 用 sed 中 可 用 的 大 括号 来 匹 生 “一 个 数字 后 面 儿 少 跟 有 5 个 句点， 然 
后 艾 跟 有 一 个 数字 ”的 情况 。 为 了 查看 执行 过 程 ， 我 们 将 给 出 一 个 sea 命令 , 用 - 
个 连 字 符 代替 引导 符 中 的 句点 。 然 而， 我 们 设 有 介绍 sed 的 替换 元 字符 的 语 范 一 一 
和、 ) 用 于 保存 止 则 表达 式 的 一 部 分 ， 而 叉 和 这 用 于 回调 保存 的 部 分。 因此， 这 
个 命令 看 上 去 相当 复杂 (了 酌 实 如 此 司 ， 但 它 可 以 完成 工作 。 


呈 Se Sr91919sAT5, 人 有- [TD-9.+1 AAA SaInDP] 
2 

| 

1 -2 

TD-200 


可 以 编写 “个 类 似 的 表达 式 , 虑 配 “个 或 多 个 前 导 制 袁 符 或 两 列 数据 之 问 的 制 表 符 ， 
可 以 改变 列 的 顺序 和 使 用 另 - -个 定 输 符 取 代 制 表 符 。 你 可 以 使 用 sed 或 gres 通过 自 
己 编 扎 简单 的 和 复杂 的 替换 进行 检验 。 


使 用 喜欢 的 元 字符 
袁 3-4 列 出 了 士 则 袁 达 式 的 有 趣 的 示例， 其 中 许多 已 经 在 本 章 进 行 了 介绍 : 
表 3-4:， 有 用 的 正则 表达 式 

















项 目 正则 表达 式 _ 
州 的 邮政 编写 口 [A-Z]IA-jD 

城市 、 州 “.#; 口 | 上 - 莹 | [AZ] 

域 市 、 州 邮编 (POSIX egrep ) 1".*,LI[A-Z][A-ZID[0-9T{fS1C-[O-9141 

月 、 日、 年 [A-Z1[a-z]A393D[0-9RT12 DIDO-9]Wd4A 

美国 社会 保险 近 1to-9]\(3W}-[9-9]\{2A}-[0-9]A4A} 

北美 地 区 电话 -3-[0-9T4] 





- wmaeeaaiie mm -rs 一 一 一 一 一 -一 - 


Z2 


1 3 


吉 





表 3-4: 有 用 的 正则 表达 式 【 续 ) 
项 目 

格式 化 的 美元 数 祷 

tro 时 实 人 的 宁 体 请 求 

trotf 请 凑 

troff 去 

带 有 参数 的 tro 侍 安 

HTML 身 人 的 代码 

YVentura Publisher Style Codes 
匹配 涪 行 

匹配 整个 行 
匹配 一 个 或 多 个 空格 











正则 表达 式 








' [LGA.[O-9J[0-9] 


AAAfICRTRP]C#[ 再 克 ]* 





avla2hf2A] 


AN[A-Z112} 
AA[ 和 -ZI12]. 口 ".s" 


立 [ 二 >]#> 





n 半 六 一 门 .站 
“可 
. 半 事 





























本 章 内 容 ， 第 四 章 
。 在 肌 本 中 应 用 区 仿 四 章 
*# 可 直上 诗 全 局 尖 祝 


0 编写 Sed 脚本 


并 让 jbnmiSed Land 


为 了 使 用 sed . 首先 览 闹 号 个 舍 有 -系列 钢 畦 操作 的 脚本 .然后 在 某 个 输入 文件 上 
运行 它 - 使 用 sed 可 以 将 类 似 二 Yi 编辑 器 中 手动 的 操作 过 程 操 取出 来 ,并 转换 成 -- 
个 非 于 动 的 过 程 ， 邵 通过 执行 -个 脚本 来 实现 。 


手动 进行 编辑 1 作 时 , 可 以 通过 输入 一 个 编辑 命令 并 观 业 立 即 出 现 的 结果 来 检 杏 因 
果 关 系 。 通常 有 “' 个 “undo” 命 令 用 于 撤销 一 个 命令 的 影响 ,并 将 文 李 文件 返回 到 
它 的 前 -个 状态 。 -出 学 会 了 交 开 式 文 本 编辑 党 ,就 可 以 采用 安全 的 并 可 控制 的 方 
式 ， 求 体验 -次 : 睛 进行 政变 的 感觉 。 

大 多 玫 不 娄 悉 sed 的 人 都 和 沉香， 编 扎 执行 -系列 编 红 动 作 的 有 睛 本， 比 手动 做 一 些 惧 
部 旧 则 险 ， 这 种 担心 的 原 同 是 自动 化 任务 会 发 生 一些 不 可 道 转 的 事情 。 学 习 sed 的 
目标 黔 是 很 好 地 理解 它 从 而 可 以 预 炙 执行 结果 。 换 名 话 赔 , 你 将 逐 针 理解 编辑 的 脚 
森 与 得 到 的 输出 之 问 的 因果 关系 。 

这 就 要 求 采用 可 控制 的 . 有 秩序 的 方式 来 使 用 sed。 在 编写 脚本 时 , 应 遵循 以 下 这 些 
步 曼 : 

1. 在 弟 手 做 之 前 要 型 捕 楚 想 做 什么 。 

2. 上 朋 确 地 撕 述 处 理 的 过 程 ， 

3. 人 硒 提 灾 最 终 的 改变 二 前 反复 测试 这 个 过 程 。 
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底 些 步 又 只 是 第 二 总 “了解 正则 表达 式 读 法 "中 介绍 编 乞 正 则 表达 式 的 过 程 的 重 述 。 
它们 揽 述 了 编写 任意 种 类 的 程序 的 方法 论 。 检 出 脚本 是 否 工 作 的 最 好 的 方式 , 是 使 
用 不 同 的 输入 样 木 进行 测试 并 观察 结 黑 . 





稍微 实践 一 个 ， 你 就 会 信 御 你 的 sed 脚本 ， 它 将 会 做 你 想 让 它 做 的 工作 (这 有 点 类 
似 于 个 人 的 时 间 管理 . 学 会 将 某 些 任务 委托 给 别人 去 做 。 你 可 以 将 小 的 任务 委托 给 
别人 ， 如 果 成 功 了 ， 圭 将 天 的 任务 委托 给 他 们 )。 


国 此， 本 豪 可 以 使 你 自 四 地 编写 处 理 编 辑 工 作 的 脚本 。 这 就 要 了 解 sed 工作 的 3 个 
基本 的 原理 : 


。， 。” 鸯 本 中 的 所 有 编辑 命令 部 将 依次 应 用 十 每 个 和 输 人 行 。 
* 命令 应 用 于 所 有 的 行 【 人 多 局 的 ]， 除 非 行 寻 址 限制 了 受 编辑 命令 影响 的 行 ， 


*， 原始 的 输入 文件 本 让 改 变 ,编辑 命令 修改 了 原始 行 的 备份 并 且 此 和 省 谷 被 发 送 到 
标准 输出 。 


介绍 了 这 些 基 本 原理 之 后 ， 我 们 将 看 一 下 不 同 的 sed 应 用 的 4 种 类 型 的 脚本 。 这 些 
靶 本 提供 了 你 将 要 编写 的 著 本 的 基本 模型 .虽然 在 sed 中 可 以 使 用 许多 命令 变量 ,但 
本 章 中 的 脚本 将 有 针对 性 地 使 用 几 个 命令 。 虽然 如 此 , 你 仍 可 能 会 对 用 这 么 少 的 命 
令 能 处 埋 这 公 多 事情 而 感到 惊奇 【第 无 章 “基本 sed 命令 ”和 第 六 章 “ 高 级 sed 命 
令 ” 分别 给 出 了 基本 的 和 高 级 的 sed 命 令 )。 这 种 想 靶 是 在 探讨 月 本 中 可 使 用 的 所 有 
命令 之 前 ， 首 先 了 解 脚本 如 何 荆 作 以 及 如 何 使 用 脚本 。 


在 脚本 中 应 用 命令 


将 一 系列 编辑 组 台 进 个 肢 本 中 会 出 现 意 想 不 到 的 结果 , 你 可 能 考虑 不 到 一 个 妨 辑 
操作 会 对 另 一 个 编辑 操作 产生 什么 影响 ,新 用 户 一 般 会 认为 ,sed 在 应 用 下 一 个 编辑 
命令 之 前 ， 先 将 -个 单独 的 编辑 命令 应 用 于 输 人 的 所 有 的 行 。 但 事实 正好 相反 。 sed 
首先 将 整个 编辑 脚本 应 用 于 第 一 个 输入 行 , 然后 再 污 取 第 二 个 输 人 行 并 对 其 应 用 整 
个 脚本 。 因 为 sed 总 是 处 理 原始 行 的 最 新 形式 ， 所 以 生成 的 任何 编辑 工作 都 会 改变 
后 绫 命令 应 用 的 行 .sed 不 会 保留 最 初 的 行 。 这 意味 着 与 原始 输入 行 匹配 的 模式 可 能 
不 峰 与 经 过 编辑 操作 之 后 的 行 匹配 ， 
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我 们 和 将 看 到 使 用 替换 命令 的 示例 。 假设 有 人 快速 编写 了 下 面 的 脚本 , 来 将 “pig” 换 
成 oow 并 将 “cow” 换 成 “horse”。 


SPig7eowy 
SFeowyhorseyg 


你 认为 会 发 生 什 么 呢 ? 用 一 个 样本 文件 试 一 下 .在 了解 了 sed 是 如 何 工作 的 之 后 ,我 
科 将 讨论 所 发 生 的 事情 。 


模式 空间 


sed 维 护 一 种 模式 空间 , 即 一 个 工作 区 或 临时 缓冲 区 , 当 应 用 编辑 命令 时 将 在 那里 存 
储 单 个 输入 行 { 注 1) .图 4-1 展 示 了 进行 模式 空间 转换 的 -个 两 行 的 脚本 .。 它 将 "The 
Unix System” 改 变 为 “The UNIX Dperating Systemy”。 





JJe UNANSystem 










sj/UrnIXAUNIXY/ 
S1UNIX System/UNIX DOperating SYStem 


模式 空间 









The Daix System 
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| Cszhe UNIX operating System ] je- 
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heUNXKDperatng Syste 











图 4-1: 脚本 中 的 命令 改变 了 模式 空间 的 内 容 

广 1 : 一 状 一 行 的 设计 的 一 个 优点 是 sed 在 读 博 非常 岂 大 的 文件 时 不 会 出 现 同 题 。 翼 堵 编辑 
程序 惟 须 将 整个 文件 【或 者 它 的 一 些 座 大 的 部 分 ) 读 入 内 站， 这 将 贫 产 生 内 存放 出 或 
言 在 处 理 眠 大 的 福 件 时 媚 度 非常 钵 。 





瑟 第 四 倍 





袜 巡 由 ,模式 空间 包含 有 单个 输入 行 的 备份 . 存 图 4-1 中 是 “The Unix System” 行 。 
脚本 中 正常 的 流程 站 在 这 - 行 上 执行 每 售 命 令 直 到 奸 本 达到 末 昆 . 脚本 中 的 第 一 个 
命令 应 用 于 这 一 行将 “Unix” 换 成 “UNIX”。 贱 后 应 用 第 二 个 命令 ， 和 将 “UNIX 
System” 按 成 “UNIX Operating System”( 注 2)。 注 音 第 二 个 替换 命令 的 模式 不 
匹配 最 初 的 输 和 人行 ， 它 匹配 模式 空间 中 发 生 了 变化 的 当前 行 。 


当 应 用 了 所 有 的 指令 后 ,当前 行 被 输出 并 且 和 输入 的 下 “ 行 被 读 和 人 模式 空间 . 然后 肢 
本 中 的 所 有 的 命令 应 用 于 新 读 人 的 行 。 


结果 是 ,任何 sed 命令 都 可 以 为 应 用 下 “个 命令 改变 模式 空间 的 内 容 . 模式 空间 的 
内 容 是 动 春 的 , 而 且 并 不 总 是 匹配 最 初 的 给 入行. 这 就 是 本 章 开 始 处 的 示例 脚本 中 
的 问题 。 正 如 所 希望 的 那样 第 一 个 命令 将 “pig ” 换 成 “cow”。 然而 ， 当 第 二 个 命 
令 在 同行 上 将 “sow” 换 成 “horse” 时 ， 尼 还 改变 了 由 “pig” 换 成 的 “cow”。 所 
以 ， 在 答 入 文件 中 包含 pig 和 cow， 而 输出 文件 中 只 包含 horsel 





这 个 错误 只 是 脚 夺 中 命令 的 郑 序 的 问题 ， 反 转 命令 的 顺序 一 一 在 将 “pig” 换 成 
“ceow” 之 前 先 将 “cow” 换 成 “horse” 一 一 这 就 是 技巧 。 


SCOwe horsey 
3 DIS7cowr9 


一 些 sed 命 令 改变 了 整个 脚本 的 流程 ,正如 我 们 在 后 面 的 章节 中 将 会 看 到 的 那样 。 例 
如 ，N 命令 将 另 ' 行 读 人 模式 空间 但 设 有 删除 当前 的 行 , 所 以 可 以 测试 跨越 多 行 的 
模式 。 其 他 一 些 命令 告诉 sed, 在 到 达 脚 本 的 底部 之 前 退出 或 者 转 到 带 标记 的 命令 。 
scd 还 维护 了 称 为 保持 空间 (hold space) 的 另 一 个 临时 缓冲 区 。 可 以 将 模式 空间 的 
内 容 复 制 到 保持 空间 并 在 以 后 检索 它们 。 使 用 保持 空间 的 命令 将 在 第 六 堂 讨论 。 


寻 址 上 的 全 局 透视 


要 注意 的 第 “ 件 事 是 sed 将 命令 应 用 于 每 个 输入 行 。 与 ed、ex 或 jj 不同，sed 是 隐 
式 全 局 的 。 下 面 的 替换 命令 将 每 个 “CA” 都 换 成 “Caiifornia" 。 





注 了 : 是 的 ,我 们 可 在 菜 一 节 承 特 “Unix System” 换 成 “UNIX Operating System"。 热 而 ， 
给 入 文件 也 话 耻 售 “UNIX System” 和 “Unix System” 两 种 情 汽 。 因 此 通过 将 “Unix" 
换 成 “UNIX” ， 从 而 在 将 它们 损 或 “UNIX Dperating System” 之 前 可 以 性 两 种 情况 
保持 一 致 。 
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SC 呈 7CC 已 1 ECTDLaAG 


如 果 在 站 中 从 ex 命令 乌 示 符 后 输入 相同 的 命令 ， 那 么 它 将 只 替换 当前 行 中 的 所 有 
出 现 . 在 sed 中 ,好像 每 一 行 都 会 成 为 一 次 当前 行 , 因此 命令 可 以 应 用 于 每 : 行 . 行 
地 址 用 于 提供 操作 【或 限制 ) 的 上 下 文 环境 《 简 而 音 之 , 在 中 中 除非 告诉 它 对 哪 -- 
行 抠 作 ， 他 则 它 什 么 事情 也 不 会 做 ; 而 sed 将 处 理 每 - 行 ， 除 非 你 告诉 它 不 要 和 做)。 
例如 ， 通 过 身 前 面 的 奉 换 命令 提供 地 址 “Sebastopel”， 我 们 可 以 限制 只 对 包含 
“Sebastopol” 的 行 下 将 “CA” 郝 换 为 “Califormia* 。 


PbaBtLODODPGT7SA CA CTTTOrCaay 


由 “Sebastopol,CA” 组 成 的 输入 行将 匹配 这 个 地 址 , 并 且 应 用 赴 换 命令 将 它 赫 换 蚊 
“SebastopolhCalifornia”"， 由 “San FranciscoCA” 组 成 的 行 不 会 被 匹配 ， 而 且 不 会 
应 用 替换 命令 。 


sed 命 令 可 以 指定 零 个 . -- 个 或 两 个 地 址 。 每 个 地 址 都 是 一 个 描述 模式 , 行 号 或 者 行 
寻 址 符号 的 正则 表达 式 。 

* ”如 果 设 有 指定 地 址 ， 那 么 命令 将 应 用 十 每 一 行 ， 

* 如果 只 有 一 个 地 址 ,那么 命令 应 用 于 与 这 个 地 址 匹配 的 任意 行 。 


* 如 果 指 定 了 由 逗 呈 分 隔 的 也 个 地 址 ,那么 命令 应 用 于 匹配 第 -个 地 址 的 第 行 
和 它 后 面 的 行 ， 喜 到 匹配 第 二 个 地 址 的 行 【包括 此 行 )。 


* 如 果 地 址 后 面 跟 有 感 哎 号 ( 与， 那么 命令 就 应 用 于 未 匹配 读 地 址 的 所 有 的 行 。 
为 了 解释 寻 址 是 如 何 工作 的 ， 让 我 们 先 来 看 看 使 用 删除 命令 和 的 示例 。 一 个 只 由 了 
命令 组 成 并 且 没 有 地 址 的 脚本 不 会 产生 输出 ， 因 为 它 删 除了 所 有 的 行 : 
a 
当 行 号 作为 一 个 地 址 提供 时 , 命令 只 影响 那 一 行 . 例如 , 下 面 的 示例 只 删除 第 - - 行 : 
1a 


行 号 指 由 sed 维护 的 内 部 行 数 。 该 计数 器 不 会 因为 多 个 输入 文件 而 重 置 。 因 此 ， 不 
管 指定 多 少 个 输入 文件 ， 人 在 输入 访 中 也 只 有 一 行 1 
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同样 ， 输 入流 也 只 有 一 个 最 后 的 行 。 可 以 使 用 引起 符 号 $ 指 定 。 下 面 的 示例 删除 输 
入 的 最 后 一 行 : 


3 
$ 符 号 不 应 该 和 正则 表达 式 中 使 用 的 $ 相 混 清 ， 在 这 里 表示 行 的 结束 。 
当 赴 则 表达 式 作为 地 址 提供 时 ,这 个 命令 只 影响 与 这 个 模式 匹配 的 行 。 正则 表达 式 
必须 封闭 在 斜 枉 【站 中。 下面 的 剧 狗 命令 

全 
只 删除 空 行 。 所 有 其 他 行 都 不 会 改变 。 
如 果 棍 供 两 个 地 址 ,那么 就 指定 了 命令 执行 的 行 范围 。 下 例 展 示 了 如 何 删除 由 “对 
宏 包 围 的 所 有 行 ， 在 这 种 情况 址 ，.TS 和 .-TE 标记 了 地 1 输入 : 


Van TS as TEY 村 


它 删 除了 从 第 -各 模式 匹配 的 行 开始 ， 到 由 第 二 种 模式 匹配 的 行 (包括 此 行 在 内 ) 
为 止 的 所 有 行 。 这 个 范围 之 外 的 行 不 受 影响 。 下 面 的 命令 删除 了 文件 中 从 行 50 到 最 
后 一 行 的 所 有 行 


5 日， 台 总 
可 以 刘 和 使 用 行 地 址 和 模式 地 息 : 
1 .三 


这 个 示例 删除 了 从 第 一 行 直 到 第 一 个 空 行 的 所 有 的 行 , 例如 , 可 用 它 来 删除 保存 在 
文件 中 的 Internet 邮 件 销 息 中 的 邮件 闭 ， 





你 可 以 把 第 一 个 地 址 看 佑 是 启用 动作 , 并 把 第 二 个 地 址 看 做 是 禁用 动作 。 sed 没 有 办 
法 先行 决定 第 二 个 她 址 是 否 会 匹配 。 一 旦 匹配 了 第 一 个 地 址 , 这 个 动作 就 将 应 用 于 
这 些 行 。 于 是 命令 应 用 于 “所 有 ”随后 的 行 直到 第 二 个 地 址 被 匹配 。 在 上 例 中 ， 如 
杂文 件 不 包含 空 行 ， 那 么 将 删除 所 有 的 行 。 


跟 帮 地址 后 面 的 感叹 生 会 反 转 匹配 的 意义 。 例 如 , 下 面 的 脚本 将 删除 除了 在 节 1 给 
入 块 中 的 那些 行 以 外 的 所 有 行 : 
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1 


实际 上 ， 这 个 脚本 从 源 文 件 中 提 电 也 1 输入。 


分 组 命令 

sed 使 用 大 括号 (f 2 将 一 个 地 址 嵌 喜 在 另 :个 地 址 中 , 或 者 在 相同 的 地 址 上 虚 用 多 
个 命令 。 如 果 想 指定 行 的 范围 . 然后 在 这 个 范围 内 指定 另 一 个 地 和 十， 则 可 以 诺 套 地 
址 ， 例 如 ， 为 了 只 删除 节 1 输入 块 中 的 空 行 ， 使 用 王 面 的 命令 : 


左 大 括号 必须 在 行 本 ,而 日 右 大 括号 本 身上 必须 单 独占 行 。 要 确保 在 大 括号 之 后 没 
有 空格 ， 
可 以 使 用 大 括 扎 将 编辑 命令 插 起 来 以 对 某 个 范围 的 行 应 用 多 个 命令 ， 好 下 所 示 : 
TS 
三 7 
Sn 和 ]07 .DB Br 


mV 2，.VS 工 总 ” 
} 
} 


这 个 示例 不 仅 剧 除 了 tb 输入 块 中 的 空 行 ， 而 且 它 述 使 用 替换 命令 s， 改 变 了 几 个 
tro 乍 请求 。 这 些 命令 只 应 用 主 .TS/.TE 块 中 的 行 。 


测试 并 保存 输出 

在 前 面 关于 模式 空间 的 讨论 中 ， 可 以 看 到 sed: 
1 生成 输入 行 的 备份 。 

2， 修改 模式 空间 中 的 各 份 。 

3. 将 备份 输出 到 标准 输出 。 


这 些 意 味 着 sed 有 其 内 置 的 安全 措施 ， 所 以 会 改变 原始 的 文件 。 困 上 此， 下面 的 命 们 
行 : 








汪 3 遇 全 人 旨 -于 日 人 dSCLE 上 呈 昌 上 1 





不 会 在 ieslfjiie 中航 改动 。 它 将 所 有 的 行 送 往 标 崔 和 输 出 (一般 是 屏幕 )》 一 一 包括 被 修 
改 的 行 和 社 有 被 修改 的 行 。 如 果 想 要 保存 这 些 箱 出 ,就 必须 将 它们 收集 到 一 个 新 文 
件 中 。 


总 向 委 晶 一 硅 总 已 本 且 如 二 二 好 如 七 在 半 ] > 卫 台 W 王 六 1 所 





其 中 , 重 定向 符号 “>” 将 来 自 sed 的 输出 直接 送 往 文 件 mewfpie 中 。 不 要 将 来 自命 
令 的 铀 出 重 定向 到 输入 文件， 否则 会 改 蕊 输入 文件 。 甚 至 可 能 在 sed 处 理 这 个 文件 
之 前 发 止 ， 并 变 坏 你 的 数据 。 


将 输出 重 定向 到 文件 的 一 个 重要 的 理由 是 奖 检 验 结果 . 吕 以 检查 mewFiie 的 内 容 划 与 
testfie 进行 比较 。 如 果 起 要 很 系统 地 检查 结果 【应 该 这 样 ) ， 可 以 使 用 diff 程序 指 
出 两 个 文件 之 间 的 区 别 。 


S 划 计 下 三 起 合 尽 蕊 于 二 荆 全 瑟 各 W 王 计 蕊 


这 个 命令 将 在 fes 六 je 特有 的 行 前 面 显示 “< ”, 并 在 aewHfie 特 有 的 行 前 面 显示 “>”。 
当 检验 了 结果 后 ， 要 生成 原始 文件 的 一 个 备份 ， 然 后 使 用 my 命令 来 用 新 文件 改写 
原始 文件 。 人 在 丢弃 原始 文件 之 前 村 确保 编辑 的 肢 本 可 以 正确 地 工作 。 


由 于 要 如 此 频繁 地 重复 这 些 步 又 , 因此 将 它们 让 和 -个 shell 脚本 是 非常 有 用 的 。 但 
我 们 不 能 更 深信 地 讨论 shell 脚 本 的 工作 情况 ,对 这 些 脚 本 的 理解 和 使 用 非常 简单 。 
编写 shell 脚本 需要 使 用 文本 编辑 器 , 向 文件 中 输入 一 个 或 多 个 命令 行 , 并 保存 文件 
然后 使 用 chmod 命令 生成 可 执行 的 文件 . 文件 的 名 宇 就 是 俞 令 的 名 字 , 并 且 可 以 在 
系统 提示 符 下 输入 它 。 如 果 不 秀 悉 shell 丢 本 ， 可 以 按照 本 书 出 现 的 shell 脚本 生成 
你 自己 的 替换 。 





平面 两 个 shel 脚 素 对 于 测试 sea 肢 订 以 下 对 文件 中 进行 永久 性 改动 非常 有 用 。 当 需 
要 佳 多 个 文件 上 运行 同一 个 脚本 时 ， 它 们 尤其 有 用 。 








tested 


sheit 脚 木 testsed 自动 将 sed 的 输出 保存 在 临时 文件 中 。 它 期 望 在 当前 目录 中 找到 脚 
可 误 件 edser,， 并 将 其 中 的 指令 应 用 于 在 命令 行 指定 的 输入 文件 。 这 些 输出 被 放置 
在 一 个 临时 文件 中 。 


编写 sed 脚本 人 








:at 其 
岂 5 
Sea -站 Seqccr Si > LIP.SXX 


缮 mne 


文件 的 名 字 老 须 在 命令 行 上 上 指定。 结果 ， 这 个 shell 脚本 将 输出 保存 到 以 “tp” 为 
前 缀 的 临时 文件 中 .可 以 检查 痢 时 文件 以 决定 编辑 工作 是 否 正确 .如果 结 果 是 对 的 ， 
则 可 以 使 用 台 ? 命令 来 用 临时 文件 改 罕 原始 文件 ， 也 可 以 将 出 狂 命 令 插 人 到 shell 半 
本 【在 sed 命令 之 后 漆 加 划 任 $z tmp.$x ) 





如 果 你 发 现 脚本 没有 产生 所 期 证 的 车 果 ， 记 住 最 简单 的 “修复 {fix )” 通 常 是 完善 
半 辑 脚本 然后 在 原始 输入 文件 上 后 次 运行 它 。 不 要 编写 :个 新 脚本 来 “取消 
(undo)” 或 者 改进 临时 文件 中 生成 的 改动 。 


runsed 


这 个 shell 脚本 runsed 是 为 了 对 输入 文件 实现 永 夭 性 的 改变 。 换 名 话说 ， 如 果 想 让 
输入 文件 与 输出 文件 相同 时 可 以 使 用 它 。 与 testsed 类 似 , 它 创 建 - -个 临时 文件 , 但 
是 它 随 后 会 执行 下 一 步 : 用 这 个 文件 改写 原始 文件 。 


间 ! DinASsh 
二 < 基 
口 证 
已 尼 hD “QitInS XI Ge 
下 七 让 3SL “是 区 ” = 台 世 村 名 CT 二 太 em 


宕 ChHS "net 和 tlIn 可 号 ESCTIPE 1 
尼 ]1E test -8 5SX+ L 上 hen 
8 本 -二 3GSCE S 太 > ED SXW< 
1 上 人 SUL 一 廿 m 光 了 雪人 生 有 
“he 
jj】 AmE 号 号 六 CTOE 7 贞 基 站 上 
七 上 已 也 
和 写 CD “下 1 全 站 站 上 Chan 台 ec: CC 
富 工 世 安 
IT $X 人 .Pak 相 Sawe Original， just n Cage 
CE CEmE Y 守 允 呈 和 写 江 
位 计 
eehaDo “"“ 司 ne 
局 上 三 它 
ecno "Seq Produce an efmpty filLexvc， 
Echo “-Check Your geqdscripc.， 
工 
TIm 一 土 2LUUDA 宇 区 可 
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所 1] 呈 忆 
名 hi DiraL 工 ] 如 18 emETY 
了 
站 De 
总 Co “ 蛋 11 qonE 


时 使 用 runsed ， 在 想 要 进行 编辑 抬 作 的 日 孙 卜 ， 创 建 “个 名 为 seadscr 的 sed 脚本 ， 
在 命令 行 上 与 上 要 编 和 的 文件 名 。shell 元 字符 可 用 于 指定 一 组 文件 。 





SUnES Oh03 


runset 简单 地 对 命名 文件 使 用 sed -f sedser， -次 -个 ， 并 且 将 输出 重 定 向 到 一 
个 临时 文件 中 。 然 后 ransea 油 试 这 个 临时 文件 ,以 确信 在 入 盖 原始 文件 之 前 产生 了 
输出 。 


这 个 shell 脚本 的 内 容 【第 9 行 }》 本 质 .与 testsed 丰 辣 。 附 加 的 行 用 干 测 试 未 成 功 
的 运行 ， 例 如 ， 当 设 有 产生 篇 出 时 。 它 比较 两 个 文件 看 看 是 否 趴 的 进行 了 政 动 , 或 
者 看 看 在 改写 原始 文件 之 前 是 否 产生 了 空 的 输出 文件 。 


然而 ，runmsed 无 法 避免 产生 未 完成 的 编辑 脚本 ， 在 用 runsed 生 成 永久 性 的 疏 变 之 
前 ， 庶 该 首先 使 用 testsedg 检验 这 些 改变 。 


sed 脚本 的 4 种 类 型 


在 本 节 中 ,我 们 将 会 看 到 4 种 类 型 的 脚本 ， 每 类 脚本 都 说 明了 种 上 典型 的 sed 应 用 。 


对 同一 文件 的 多 重 编辑 


sed 脚 本 的 第 “种 类 型 示范 了 在 个 文件 中 进行 “系列 编辑 工作 .我 们 使 用 的 第 一 个 
示例 是 将 由 字 处 征程 序 创建 的 文件 转换 为 用 于 troff 的 编码 文件 。 


本 书 的 一 位 作者 曾经 为 计算 机 公司 编 革 了 一 个 项 卓 , 这 里 指 BigDne Computer。 这 
个 文档 必须 包 插 “Horsefeathers Software” 产 品 境 明 。 这 个 公司 许诺 产品 说 明 是 在 
线 的 并 且 他 们 将 发 送 它 。 可惜 的 是 ， 当 文件 到 达 时 ， 它 包含 行 式 打印 机 的 格式 化 输 
出 ， 这 是 他 们 可 以 提供 的 惟一 方式 。 那 个 文件 的 :部 分 (在 porsefeatper 文件 中 保 
存 的 用 十 测试 的 部 分 ) 如 下 所 示 : 


编写 sed 脚本 和 李 





下 性 民 癌 卫 下 下 让 站 RS DER ERODJCT BUTURTTN 


DLSCRI2TIOR 


BLOOD omPU-ET 让 FFeES 十 hree SODftware Packages From the suitLe 
THDrasferlhezSs SoEtwsre Droogucts - HereezeatLhers Businese 
BASTCy BaSIC Libzarian,Ena DIDD,ThaSse SOFLwaye ProduccE 已 SIL 

1 YD-T TeGUIYETEeIILE 二 OF EDOwertuL SophtSrLeatec， 
enezaaL-DJTPGSE buas:Tess SODftware PErovjiaing you with a 2Dage for 
号 站 -wara SomigaLL Dr Dr 口 PveTopnenz 。 


HBISe=eaTmers Ba5l0 1 RASIC CPtirized For Use cn zhe Bigores 


下 an WILL US oOT ME-TOS DEFeLrRLIPO SYSEEmE .BRSTC iLibrariam 
j3 昌 上 1 Screen Program eqjitor,wnich ase 下 TvIGeSs 十 记 六 工 工 二 


注意 ， 文 本 已 经 通过 在 单间 之 问 添 加 空格 调整 过 了 ， 还 添加 了 空格 来 产生 左边 界 。 





当 开始 用 sed 处 理 问 题 时 ， 如 果 对 想 要 做 的 事情 设计 -个 省 忘 录 ， 我 们 将 会 把 它 向 
得 最 好 。 当 我 们 开始 编码 时 ， 我 们 编写 … 个 完成 单 巧 能 的 单个 命令 的 脚本 。 并 测 
试 它 的 作用 , 然后 证 加 另 “个 命令 , 重复 这 个 循环 过 程 吉 到 完成 所 有 显然 要 做 的 事 
情 ( 因 为 列表 并 不 总 旦 很 完整 的 , 所 以 称 “ 所 有 显然 的 ”, 而 且 这 个 实现 与 测试 的 特 
荆 经 常会 向 列表 添加 其 他 的 项 日 ) 。 


这 样 的 工作 似乎 是 非常 乏味 的 过 程 , 而 且 实 际 上 有 许多 脚本 在 一 次 编号 完成 后 才 开 
始 测试 而 且 效果 很 好 ， 然 而 ， 疝 初学 者 高 并 推荐 逐步 编写 的 技术 ,是 因为 将 每 个 命 
令 隔 离开 来 可 以 很 容易 地 看 出 哪些 功能 实现 了 , 哪些 还 没有 . 如 果 同 时 尝试 儿 个 命 
令 . 则 在 问题 出 现时 需要 按 和 创建 命令 相反 的 过 程 来 结束 ; 也 就 是 说 ,一 个 .个 地 
删除 命令 直到 找到 问题 为 正 。 


下 面 是 Horsefeathers Software 产品 说 明显 然 需要 做 的 一 个 编辑 工作 的 列表 ， 


1 用 自问 宕 《-LP) 取代 所 有 的 空 行 。 

2.， 融 除 每 行 的 所 有 的 前 导 空 格 。 

3. 删除 打印 机 下 划 线 的 行 ， 即 以 “+” 开 始 的 行 。 
4 删除 座 加 在 两 个 单词 之 间 的 多 个 空格 。 


第 “个 编辑 操作 要 求 匹 配 空 行 。 但 是 ， 在 查看 输入 文件 内 容 时 ， 空 行 是 否 有 前 导 空 
格 并 不 明显 。 当 清除 空格 后 ， 它 们 没有 前 导 空格 ,所 以 空 行 可 以 采用 模式 “*$” 匹 
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配 【《 如 此 行 上 右 空 格 ， 寺 冬 模式 号 成“*1]*$$") 因此 ， 第 一 个 编辑 操作 可 以 用 以 下 
方法 非常 简单 地 实现 : 


7 E 


它 用 “.LP” 取代 每 个 空 行 , 注意 在 替换 命令 的 替代 部 分 不 必 转 闵 字 面 句点 。 我 们 可 
以 在 sedser 文 件 中 让 毅 这 个 命令 ， 并 册 使 用 下 和 面 的 命令 进行 测试 : 


生生 提 忆 一 于 自生 台 昌 性 工 也 让 碟 站 全 天 尾 电 七 he 工 召 
TOR3LEPEATHERS SOPFTWaRE SRODUCT BUDDETIM 

,下 
DIE 尼 SCRISTLTDM 

| ------ - 

,已 
且 工 g 人 me 人 DRmEP1 二 Er 癌 丰 二 E 本 号 二 本 世 后 丰 ”号 忆 于 七 W 本 并 己 站 总 CX 甩 可 和 Ci 起 hh 名 册 工 二 所 
外 在 开 上 汪 局 了 伍 且 上 芋 站 > 对 辣 品 下 和 帮 瑟 工人 万世 四 日 .JS 一 -HOT5E 斌 ahEeTS BUSLDES 吕 
FASIC, BaSIC LIBPFSATIGDn SanQ DLLIDDO.These StwaTre products arm 
址 1 1 yeuaxz IgGuiremeTTS or 了 DOwsxUu1，SDDphist CEreO， 
写 马 meTaL-PEUIDPSSE DaslneSS SCDTfTLware BIOVIOQinO Yaou Witch 己 base Eor 
号 品 王 七 W 电 六合 交 1 呈 二 局 了 号 七 DO 已 口 提 v 扣 LOPImeTt 

.下 
HOTS2TEESLhETS BaSTIC 1S BaSIC DCPt3mizea Er Use on the BzSCme 
TaChIDe With VNIX QT NS-DOS PsTatiRG 名 YBLeE . 忆 员 台 TC 世 1brarIam 
S full 3SCreenm Progra editrory whirh 中 18O BFrowiaes the 昌 oI1 It 和 


哪些 行 被 疏 变 过 是 很 明显 的 《将 文件 的 “部 分 单独 隔离 出 来 进行 测试 常常 很 有 用 。 
如 果 这 一 部 分 足够 小 , 以 适用 屏幕 范围 , 同时 艾 足 以 覆盖 你 想 要 进行 改变 的 不 同 的 
示例 ,那么 它 可 以 工作 得 最 好 。 当 这 个 测试 文件 的 所 有 编辑 工作 成 功 完成 之 后 ， 你 
就 可 以 将 这 部 分 移植 回 诬 文件 ， 并 开始 第 二 次 测试 )。 


我 们 要 做 的 第 二 个 编辑 操作 是 删除 以 “+ ”开始 并 且 包 含 行 式 打 印 机 下 划 线 的 行 。 我 
们 可 以 使 用 删除 命令 4 只 副 除 这 一 行 。 在 编写 匹配 这 “ 行 的 模式 中 ,我 们 可 以 有 许 
多 人 饮 择 。 下 和 面 的 每 一 种 形式 都 可 以 匹配 这 “ 行 : 
了 
AD ”7 
ar [Lv 








可 以 看 出 , 每 个 正则 袁 达 式 依次 此 配 的 字符 越 来 越 多 。 只 有 通过 测试 才能 决定 需 覃 
多 复杂 的 表达 式 来 匹配 特定 的 行 而 不 是 其 他 的 行 .在 正则 表达 式 中 定 久 的 模式 越 长 ， 
就 越 容易 使 它 不 会 产生 不 想 枝 的 正 配 。 对 于 这 个 和 靶 本 ， 我 们 选择 第 三 种 表达 式 : 
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2 L Je 
这 个 命令 删除 以 加 号 开始 并 且 后 面 距 有 至 少 一 个 空格 的 仁 意 行 .模式 中 指定 两 个 空 
榜 ， 人 也 是 第 一 个 空格 由 “*” 人 修饰， 意味 着 第 一 个 空格 可 以 有 也 可 以 没有 。 


将 这 个 命令 添加 到 sed 脚本 并 进行 铀 试 . 也 是 因为 它 只 影响 一 行 ， 所 以 我 们 省 略 了 
结果 的 显示 并 且 继 续 。 下 一 个 编辑 操作 需要 删除 在 行 开 始 位 置 填 完 的 空格 , 匹配 序 
列 的 模式 非常 类 似 寺 前 一 个 盒 令 的 地 址 。 
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这 个 命令 删除 在 行 的 开头 发 现 的 任意 空 桥 序 列 。 和 转换 命令 的 替换 部 分 为 空 , 这 意味 
着 删除 了 被 匹 吃 的 字符 串 。 


我 们 将 这 个 命令 添加 和 到 脚本 中 并 测试 它 。 


负 阳 昌 了 ” 一 皇 各 呈 要 如 刀 芋 所 扬 上 日 所 于 各 而 二 忆 工 时 

万 名 下 吕 E 目 局 ]2RE SOETWRRE PRODUC2 BULLETIN 

. 工 卫 

DESCRIPTION 

-LE 

且 1SOme 站 OPUS ET 二 ETS 上 从 开 已 全 吉 丰 不 W 司 在 甩 aCX 志 可 马 S 上 zOm the SU 了 It 号 
吕 直 于 个 六 号 己 谋 忆 司 十 站 工 各 归 人 丰 CWaY 呈 有 FOQUCES 一 -开口 FS 所 下 这 羽生 芋 汪 百 和 人世 号 纪 

肌 站 号 工 尼 ，BASIC 荆 并 关 二 工 iam am 工 TDQ ,These 号 研 -w 王 全 户 FodUCLS Ca 

Fi Yeur FeduULremenie for BCWerEU] ,总 DPIS 芋 Seat ea， 

厅 息 记忆 二 虐 -和 HE 间 站 有 全 世 DS1 尼 台 名 号 吕 直上 上 W 二 上 号 本 TOwIGLDnRS YDU WwWIth 总 base or 
S 口 主 fw7 中 IT 人 CUSHtCmIz 站 Lion or eveloermernit . 

。 工 卫 

HGTEe 下 eaaEhers BASIR 1iS BASIC Optimizedq FEor US cm the BIGOrme 
IHSC 了 DIE WILLH UNIX 本 FF 隐 有 -DOS DCDDPeratInS SYSeI 吕 .BASIC Ti 世 rarIa 和 
ia fa3l Screen Brogram Editoryyhjich also Proviaes the abi1ikby 


下 -个 编辑 操作 试图 处 理 为 了 对 齐 而 添加 的 额外 空格 , 我 们 可 以 编写 一 个 替换 命令 
匹配 任意 连续 空格 的 字符 串 并 用 一 个 空格 取代 它 。 














sz DOD*7Dy 可 





在 命令 的 结 添 加 全 局 标志 以 便 取代 所 有 的 出 现 (不 只 是 第 一 个 )。 要 注意 , 和 前 面 
的 正则 表达 式 一 样 ， 我 们 不 能 指定 有 多 少 空格 ”一 可 能 只 有 一 个 或 多 个 。 有 可 能 
是 2 个 、3 个 或 4 个 连续 的 空格 。 不 管 有 多 少 ， 都 将 它们 缩 碱 为 一 个 【 广 3)， 





注 3: 这 个 命 合 还 匹配 单个 空格 。 担 是 因为 替 访 内 容 也 是 一 个 空 将 ,因此 有 一 种 情况 实际 上 
“ 漫 有 工作 ”。 


empriPiremeau 一 ， -一 一 一 一 一 
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我 们 来 测试 这 个 新 的 脚本 : 


由 目 昌 要 -一 民 已 人 月 性 工 卫 品 工 喇 己 二 司 帮 七 e 王 忆 

再 局 诛 呈 万 下 三 训 工 FE 只 SS 站 F 工 区 二 RE PRCDUCT 卫 JDLLETII 

,下 

了 上 旦 SCORICTTOS 

.了 

写生 DIIR DITITLE 辣 站 < 二 全 S 站 上 全 避 站 fwW 间 全 万 二 CKaSES ECm 上 he SUlte 
站 [DT 2 人 上 上 世 辣 L ETS St 上 waTE PTOOMPES HTSeEEaStnEE 厨 HLSILDmESS 

了 1 训 ,号 汪 全 工 和 工 二 也 站 局 们 本 前 LI 工 TI ,开放 名 尼 阁 全 上 wa 三 人 上 Ceucts Ca 

于 1 YoULI eqU TAIICTLS TO Bowertul .Sophisz1ICatea， 

司 忆 DIE 莽 总 上 -后 -T 和 让 有 全 各 [TD 全 让 疙 DELWazS Pzoyiading Yo WwWIth 了 也 asSe 了 于 忆 
SOfkwareE CuokaorLzarior bz QeveLoomert+ ， 

了 

DEF 呈 且 工 3 忆 Le GAS Te BASTC DBPtinmrazed for use Cn the Bigone 
Iachine WwWitna RTX wr MYMS-DDOS uperaLinog Systems .BRSTJC TDpratrian 
二 了 于 4 上 SPxeem PRYroOSreanm eqiLorywhich as Prones the apiliey 


该 脚本 就 你 所 建议 的 那样 工作 ， 将 两 个 或 多 个 空格 缩减 为 一 个 。 亿 是 ,进一步 查 看 
会 发 现 该 脚本 删除 了 跟 人 在 句点 后 的 两 个 空格 上 序列， 而 在 这 里 本 应 该 有 两 个 空格 。 


可 以 完善 替换 命令 以 便 它 不 会 替换 句点 后 的 空格 .问题 是 句点 后 也 可 能 有 3 个 空格 ， 
则 需要 将 它们 缩减 为 2 个 室 格 。 最 好 的 方式 似乎 是 编 中 独立 的 命令 来 处 理 这 种 句点 
后面 跟 有 空 属 的 特殊 情况 。 











Br ,rsDD2g 





这 个 命令 用 后面 跟 丰 两 个 空格 的 句点 ,替换 了 后 面 跟 有 任意 多 个 空格 的 名 点。 应 该 
广 意 ,前 面 的 这 个 命令 将 多 个 空格 稿 碱 为 一 个 ,所 以 在 句点 后 面 只 能 找到 一 个 空格 
( 注 4) 姑 管 如 此 ,这 种 模式 不 管 句点 后 面 有 多 少 个 空格 都 会 工作 ， 只 此 全 少 有 一 个 
空格 就 可 以 了 【例如 ,这 种 形式 不 会 影响 出 现在 文档 中 的 文件 名 iextext]。 这 个 命 
令 被 放置 在 郑 本 的 结尾 处 并 进行 普 试 : 


证 症 : 


S$ Beq -天 BeqdacI heree 并 eather 晶 

HORSEER3ATHFRS SOFTWRARE PRCDTCT RUJLLET2-I 

,PE 

DESCRI2TION 

交 前 二 

BigDne 亡 DmPBUERSIT 总攻 主 ETE 七 TY ee 癌 眉 于 <WW 甩 上 所 白 站 妃 K 矶 上 人 rom 上 the SU- 七 已 
站 E HOTS 上 已 aDheTS SEEwWare Proaucts -HerSEEeathetres Business 
BASIC , B 训 全 工人 了 并 D 工 总 工 研 二 m ya 开本 TITDOD .Shegse SCTtware ToduetSs CaD 





这 个 命令 因此 可 以 局 化 为 : 
si-[ 7. LIL 
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由 1 .1 yc 2 edL_EertcatS or DemeTrfuly scpEistiLeatecG， 

日 GneYr 1 -DYDose 321nesR SCErware DovwicLrng You WwWwich base FoT 
3o037twareE Cu mlza1on er QQeve-cPEmert . 

.上 是 


局 1 3 已 二 三 避 EhE 站 于 交 辣 1 放 二 证 且 [C OPTETmL 基 生计 站 T 和 有 六 也 全 吾 1 导 忆 n 全 
FIachirc wLLEL LNTIX DLL 3-DOS CDCPeITatiLIIG ESvSLeme .BaSIC LIBrazriam 
5 于 11 当 3Tem 让 frOOrer 站 避 Icet wh eeh 旺 ] 呈 所 呈 TVI OOES 巧 人 记 志 1 工 工 EY 


它 能 正常 工作 。 下 而 是 完 成 的 靶 木 : 


号 和 E 
十 二 7 器 
So w 

汪 L]L 二 7 2 和 
号 












































正如 我 们 前 面 所 说 的 那样 ， 下 一 个 阶段 将 使 用 testsed 在 完整 的 文件 【和 邮 prodwecr. 
berimi 上 测试 脚本 并 初 底 地 检查 结果 。 当 对 这 个 结果 满意 时 ， 可 以 使 用 runsed 
生成 水 久 性 的 改变 : 


中 zuneeda hbE .produect .bullet 半 La 
Oone 


通过 执行 munsed ， 我 们 改写 了 原始 文件 。 


在 离开 这 个 脚本 之 前 ,需要 指出 的 是 ,尽管 这 个 脚 帮 是 为 处 理 特 殊 的 文件 而 编写 的 ， 
但 是 脚本 中 的 每 个 命令 部 可 能 会 再 次 用 到 , 尽管 可 能 不 会 再 使 用 整个 脚本 . 换 句 话 
说 ， 你 可 以 很 好 地 编写 共 他 的 脚本 , 来 删除 空 行 或 检查 跟 在 句点 后 的 两 个 空格 。 
认识 到 在 其 他 的 情况 下 有 多 少 命令 可 以 重用 , 这 样 可 以 缩减 开发 和 测试 新 脚本 揭 时 
间 ， 就 像 避 手 学 唱 - - 首 歌 并 把 它 添加 到 他 或 她 的 歌 单 中 一样。 





改变 一 组 文件 


sed 的 最 常见 的 用 法 是 对 一 组 文件 进行 一 系列 搜索 和 替换 编辑 操作 .通常 这 些 脚 本 并 
不 少见 也 役 有 趣 ， 它 们 只 是 -个 将 单词 或 短语 变 成 另 一 种 形式 的 替换 命令 的 列表 。 
当然 ， 这 样 的 野 本 不 需要 有 趣 ， 只 楼 它 们 有 几 并 能 节省 手动 工作 就 行 。 


本 节 中 我 们 看 到 的 例子 是 转换 脚本 ， 被 用 来 修改 UNIX 文档 集中 的 各 种 “机 器 专用 
的 ”本 请 。 一 个 人 使 用 文档 集 来 生成 一 个 需要 被 改变 的 事情 的 列表 。 另 一 个 人 根 根 
列表 来 创建 下 而 的 禁 换 清单 。 


和 





Se ON SwIrcnySTRART Switchnr 

SO Purton7sTaRT switenr 

3735TANDBBY swj cenhy73ToPF Switchy 可 

SrST&MNDBY DLLCOnySTOE Sewtcehy 可 

SomANDBY "STORY 台 

sfTeelabhinect [L2]iogntrzontrol panel Lightyg 
CBE SYSELem 加 SETEeSY DTP 全 十 呈 如 十 忆 巴 所 / 台 
S7TERW=342 05] ”ATERK=PT20D “条 

SyTeTLelyepe 542 人 [5]7BigoOne Pm20Ce 可 

是 呈 才 驴 TS] 上 号 工 仿 工 详 昌 PTRD 十 司 Im 裤 避 1 对 
SrDOCuUmenzation ROaq MapeDocumerLatIon Drectaorwy 
号 UNTI< 7 口 疡 如 工 昌 在 GT 让 WU 辣 司 711S 上 吕 】 二 总 七 如 m 己 D 本 上 Peraaicn CUiacy 全 
SAT&T 3B2D [ceompuLerrBigDne XD ConmputeLry 可 
S7ATAT 3RP> elonnurery BtTGSDOnS XI CDIPEULLECEZ 

SA3Bd [elIomeputerzrBISCne XIL ComputeTry 9 
sz3B27Bioaone XL Corputerz 


这 个 脚本 非常 直观 。 好 处 并 不 在 于 脚本 本 身 ， 而 是 在 于 sed 能 将 这 个 脚本 应用 于 组 
成 文档 集 的 数 百 个 文件 。 一 旦 这 个 脚本 通过 了 调试, 就 可 以 使 用 ransed 来 一 次 处 理 
这 里 所 有 的 文件 。 


这 样 的 脚本 可 以 节省 大 量 的 时 间 ,也是 它 还 是 有 可 能 产生 导致 浪费 大 量 时 间 的 错误 。 
有 时 人 们 编写 脚本 并 在 数 百 全 文件 中 的 一 到 南 个 上 测试 它 , 并 得 出 黎 本 能 很 好 工作 
的 结论 涡 试 每 个 文件 是 不 切实 际 的 , 因此 选择 有 代表 性 且 包 含 异 常 的 测试 文件 是 
非常 重要 的 。 记 住 ， 文 本 之 间 有 很 大 的 不 同 ， 所 以 不 能 认为 一 种 特殊 的 情况 为 真 ， 
所 有 的 情况 就 都 为 真 。 


使 用 grep 米 检查 大 量 输 人 是 非常 有 帮助 . 例如 , 如 果 归 确定 “core system diskettes” 
如 合 出 现在 文档 中 ， 则 可 以 在 各 处 查找 (grep) 它 并 注意 清单 。 为 了 更 加 利 底 ,还 
可 以 查 近 “eofre”. “core system”、“System 出 8SKettecs” 和 “diskettes” 来 异 投 在 多 
行 上 的 出 现 【也 可 以 使 用 第 六 章 中 的 phrase 脚本 ， 寻 找 连 续 行 上 的 多 个 单词 )。 检 
查 和 输入 是 了 解 丢 本 必须 要 做 什么 的 最 好 方式 。 


在 某 些 方面 ， 编 写 脚本 就 像 设 计 一 个 假设 , 给 定 事实 的 某 种 集合 。 通 过 增加 蛮 试 数 
所 来 试 着 验证 假设 的 合法 性 . 如 果 插 算 在 多 个 文件 上 运行 该 脚本 , 使 用 testsed 首先 
在 较 小 的 示例 上 测试 它 , 然后 在 许多 文件 上 运行 这 个 脚本 。 接着 比较 临时 文件 和 原 
始 文件 来 看 看 假设 是 否 正确 。 脚 本 也 许 会 有 饮 误 ,需要 对 它 进行 修改， 花费 在 测试 
上 的 时 间 越 多 (实际 上 它 是 非常 有 趣 的 工作 ) ,那么 在 解决 由 拙劣 的 各 本 导致 的 问题 
上 花费 时 间 就 越 少 
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提取 文件 的 内 容 


sed 应 用 程序 的 一 种 典型 的 用 法 是 从 文件 中 提 划 相关 的 材料 。sed 这 一 功能 类 似 于 
grep, 而 且 尼 其 有 在 输出 之 前 修改 输入 的 藉 一 优点 。 这 种 类 型 的 脚本 是 shell 脚 本 很 
好 的 候选 。 


下 面 有 是 个 示例 : 有 从 宕 包 中 提取 宏 定 六 并 且 显 示 文 档 的 提纲 。 


提取 宏 定 义 


troff 安 在 宏 包 中 进行 定义 ， 它 通常 是 存放 在 某 个 目录 《例如 Asgriibpracros) 下 的 
一 个 文件 中 。 troff 安定 勾 总 是 以 字符 串 “.de” 开始 , 后 面 跟 有 可 选 的 空格 或 者 是 由 
-个 或 两 个 字母 构成 的 宏 的 名 字 。 宏 定 六 在 以 两 个 句点 (.……) 开始 的 行 处 结束 。 本 节 
显示 的 脚本 是 从 一 个 宏 包 中 提取 特殊 的 宏 定 又 [ 它 可 以 贞 省 你 用 编辑 器 定位 并 打开 
文件 和 搜索 想 要 恰 查 的 行 的 时 间 )。 


设计 这 个 脚本 的 第 : 步 是 编写 提取 指定 宏 的 部 分 ， 本 例 指 - 奋 吓 包 中 的 【 注 5) BL 
[Bulleted List) 宏 。 

号 的 N 人 -madaeBDA AAA 贡 AP” Auarrl1tbrmhacroasrrmmt 

. 蝇 折 用 D 

.Ifvsni 3<l ,DATIPI D Un JJ wetBU 

.TtfyvsnT-S-1 .DB DAYSi 和 1 和 wwafBUI 


.ii STAR wa AASLB .TDL wwrtEin 0 lngsvswwfiBD 1 
-ETIB SITBU 有 二 


可 以 用 .选项 来 调用 sed 从 而 阻 引 它 打印 整个 文件 ， 使 用 这 个 选项 ，sed 只 打印 通 
过 打印 命令 显 式 指 定 的 要 打印 的 行 。sed 脚 本 包含 两 个 地 址 : 第 一 个 号 配 宏 定义 的 开 
始 .deBL ,第 二 个 匹配 它 的 终端 “.”( 自 成 一 行 )。 注 意 ， 这 商 个 模式 中 出 现 的 
名 点 用 反 笑 杠 转交 。 


这 商 个 地 址 指定 了 打印 命令 的 行 范围 ,这 就 是 这 种 搜索 妓 沁 与 Brep ( 不 能 匹配 行 
的 范围 ) 的 功能 区 划 。 


通过 将 该 命令 放置 在 shell 脚 木 中 可 以 使 它 更 通用 。 创 建 shell 脚本 的 一 个 明显 的 优 





证 了 : 拍 们 碰 瑟 知道 "mm 宾 在 “.de” 合 他 之 后 没有 空格 。 


如 _ 和 生 四 齐 





点 是 宕 保存 键 人 的 内 容 。 另 一 个 优点 是 shell 脚本 可以 被 设计 为 更 : 艇 的 用 葵 。 例 
如 ， 可 以 充 许 用 睛 从 命令 行 民 供 信息 。 在 这 种 情况 下 , 在 sed 脚本 中 可 不 用 硬 编 码 
间 定 宏 的 名 字 , 吊 蚌 使 用 命令 行 参 数 来 提供 它 .在 shell 肢 本 中 可 以 使 用 位 兽 特 号 来 
指定 命令 行 上 的 每 个 参数 : 第 一 个 参数 足 $1, 第 二 个 参数 是 馈 , 以 此 类 推 。 下 时 是 
getmac 肢 林 : 





对 DTTi 7 
feetimnac -- 为 S1 寺 有 rum 宏 定 归 
CEBL SIL 


这 个 shell 脚本 的 第 “ 行 蝇 制 使 用 Bourne shell 进行 郑 本 的 解释 , 其 中 使 用 了 在 现代 
UNIX 系统 上 部 可 以 使 用 的 “#!” 可 执行 解释 程序 机 制 。 第 一 行星 质 述 脚本 的 名 字 
和 自 芍 的 广 释 ， 第 三 行 上 的 sed 命令 ,除了 “BL” 被“$1” 取 我 以 处 【“1” 是 表 
示 第 -个 命令 行 参数 的 变量 )， 藉 佘 的 与 上 - -全 示例 相同 . 注音, 括 件 sed 脚 本 的 双 
引号 是 必须 的 。 如 果 使 用 单 引 号 ， 则 shell 不 对 “$1” 进 行 解释 。 


脚本 getmae 由 以 按 下 面 所 孙 的 方式 执行: 


5 和 和 tmaC 也 
这 里 的 “BL” 是 第 个 命令 行 参数 。 它 和 前 面 的 示例 产生 同样 的 输出 。 


这 个 脚本 可 以 处 理 任 意 个 宏 包 ,下 面 的 getmac 版 本 允许 用 户 将 宕 忽 的 名 字 指 定 为 第 
二 个 命令 行 参数 


#1 biny7 sh 

## 各 etmac -Teadq macro oefinlcion for 31 rom Package 2 
file=/ us :BAmactrcsyrmmt 芋 

TaC= 上当 1" 

as 有 2 

ms) 于 让] 全 =” wwDCITKyYmacECSACUY2EmEA ESC -SS 11 

-mm 于]e- "usTry1ipbarmacrosrmmc" : ; 

-mamy 二 euSTry LIb macrosram"ri 

马 宇 己 忆 

呈 让 己 - 口 “SB Smac way 上 7" gt 


这 里 的 新 内 容 是 一 个 ease 语 名 , 它 用 十 测试 袜 的 值 首 随 后 给 变量 fle 赋 一 个 值 . 注 
意 , 首先 给 锐 e 赋 了 一 个 默认 的 值 , 所 以 如 果 用 户 没有 指明 宏 包 , 那么 就 会 搜索 -mm 
宏 包 , 而且. 为 了 清楚 和 易 读 ，$1 的 值 被 赋 给 变量 mae。 
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在 创建 这 个 脚本 的 过 程 直 .我 们 在 安定 艾 第 一 行 中 发 现 了 不 同 密 包 之 间 的 区 别 。-ms 
安 人 在 “de ”和 安 的 名 字 之 问 有 “个 空格 ， 而 -mm 和 -man 没 有 。 幸运 的 是 ， 可 以 道 
过 修改 模式 来 适应 这 两 种 情况。 


TO 


在 “.de” 的 后 而 指定 了 一 个 空格 ， 后 面 跟 -个 尼 号 ， 这 意味 普 这 个 空格 是 可 选 移 。 





这 个 脚本 在 标 准 输出 上 上 打印 了 结果 , 但 是 它 可 以 被 很 容易 地 重 定 向 到 -个 文件 , 在 
这 里 它 可 以 成 为 重新 定义 宕 的 基础 . 


生成 提纲 

我 们 的 下 一 合作 例 不 仪 提 有 取 了 信息 , 而 且 对 它 进行 修改 从 而 使 它 更 易 阅 读 。 我 们 创 
建 了 名 为 ao-outlime 的 shell 脚本 ,这 个 脚本 使 用 sed 生 成 了 文档 的 大 岗 视 图 。 它 处 
理 包 含 被 编码 的 标题 部 分 的 行 ， 例 如 : 


只 SnP11 Dogranmcrl:lIS 
我 们 使 用 的 这 个 安 包 中 有 “个 章 标题 宏 , 其 名 称 为 “Se”， 分 野 标 题 命名 为 “ah"， 
“Bh” 和 “Ch"。 在 -mim 宏和 包 中 ， 这 些 志 可 以 是 “H"、“Hi”.“H2”、“H3” 等 等 。 
可 以 使 脚本 适用 十 任何 标识 文档 结构 的 宏 或 慰 志 。do.outline 财 木 的 目的 是 通过 打 
印 缩 进 格式 的 标题 从 而 使 结构 更 加 窦 出 。 | 





do.outline 的 结果 示 如 下 : 


S no.Dut1Line Ch37aaect1 
CHAPTPER 13 LeL re ComPULer Do che DirzLYyY WcrK 
， She] FTOSLTarmmimG 
只 ， 8teretc CCmmanas 
?assing 真 FOmEentS 上 DSShe11 SCcTsPLS 
Congikicrnsal Exeecuticnm 
Tiasesaraing Usea arrGUmentE 
-六 忆 扩 二 KI ivwe Execatiocn 
- SetLtLiTg Detailt Values 
What Werve aeomolisheq 


国 四 上 四书 哎 可 


它 将 结果 打印 到 标准 输 由 上 【当然 ， 在 文件 内 没有 发 生 任何 改变 )。 


让 我 们 来 看 看 如 何 将 这 个 脚本 放置 在 一 起 .这 个 著 本 需要 号 配 以 下 面 的 宏 开 始 的 行 : 
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。 音标 题 .Se) 
。 书 标 题 (.Abl) 
。 了 子 下 标题 〈.Bb) 





我 们 需要 在 耶 些 行 上 进行 奉 搞 , 革 文 束 标 记 《【 例 如 , A. B) 了 服 代 宏 并 寝 加 适当 数量 
的 空格 【使 用 制 形 符 ) 来 缩 进 每 个 标题 . ( 记 住 ，“ ”表示 一 个 制 表 符 。) 


下 面 基 基 李 的 脚本 : 


Se 中 - 

Sn Be reHaPTFR 
SA ra， “站 
BR 


tooutline 对 在 命令 行 (【“$#”") 上 指定 的 所 有 的 文件 起 作用 。-z 选项 抑制 了 程序 的 
软 认 笨 出 。 这 个 sed 脚本 包含 3 个 替换 命令 ， 用 字母 灰 换 代码 并 缩 进 每 一 行 。 每 个 
禁 换 命令 都 可 以 用 了 P 标志 来 修饰 ， 这 个 标志 表示 各 行 应 该 打印 。 


当 铀 试 这 个 脚 订 时， 产生 如 下 结果 : 


CHRAEPTEPER ' 3” Det the ComputeTr Do 上 he Dirty WeIrKX" 
站 - “She114 PRFogranmtz DC" 
责 ， "号 上 白 eQ DmmaDnos" 
品 ， “了 basesinog 瑟 TOUTIeTTS 人 3hel; Script 吕 " 


宏 参 数 中 的 引号 被 同时 传道 进来 。 我 们 可 以 编写 “个 替换 命令 来 删除 这 些 引号 。 
Sr 

指定 全 局 标志 名 来 捕获 - : 行 上 的 所 有 出 现 是 必要 的 。 然 而 ， 关 键 是 将 这 个 命令 放 在 

脚本 中 的 什么 位 置 。 如 果 我 们 将 它 放 在 脚本 的 结尾 , 那么 它 将 在 输出 行 之 后 峙 除 引 


号 。 我们 必须 将 它 放 在 脚本 的 起 始 位 置 并 针对 所 有 的 行进 行 同样 的 修改 , 不 管 它们 
之 后 是 否 在 对 本 中 葵 测 ， 





Se -mm 

中 

名 ESB 7ACHSETER 7P 
Sn 7 

当 AsEBHh YeB DD 台 * 


这 个 脚本 当前 产生 的 结果 在 前 面 已 旺 示 过 。 
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可 以 修改 这 个 脚本 以 搜索 任意 种 类 的 编码 格式 . 例如 ， 下 面 是 LATEX 文件 的 粗略 版 
本 。 


3 -了 

S7LfT1479 

号 站 号 CCD em 

避 各 LECEIECr mm ， “和 丰 


编辑 工作 转移 
让 我们 看 看 将 sed 作为 真正 的 流 编 辑 器 的 “个 应 用 ， 在 管道 中 进行 编辑 操作 ， 这 些 
编辑 操作 永远 不 会 被 写 回 到 文件 中 。 


在 - 些 类 似 打 字 机 的 设备 上 【包括 CRT}，- -个 长 破 折 号 被 作为 一 对 连 宁 符 (--) 来 
键 和 人 。 厅 排 版 过 程 中 ， 它 被 作为 一 个 长 破 折 号 【一 ) 打印 ,treff 为 长 破 析 号 提供 了 
一 个 特 蛛 的 字符 名 ,但 是 键 人 A“\em” 报 不 方便 。 
下 而 的 命令 将 两 个 连续 的 破 折 号 转换 为 一 个 长 破 折 号 。 

名 /一 -TS 


我 们 在 蔡 换 字符 种 中 用 两 个 反射 杠 来 表示 Yem , 因为 反射 村 在 sed 中 有 特殊 的 含义 。 


也 许 在 很 多 情况 下 我 们 不 想 应 用 这 个 奉 换 命令 。 如 果 有 人 用 连 字符 绘制 水 平 线 将 会 
怎样 ?我 们 可 以 重 定义 这 个 命令 来 排除 含有 3 个 或 多 个 连续 的 违 字符 的 行 。 为 了 完 
成 这 个 任务 ， 我 们 使 用 ! 地 址 修 久 符 ; 


7 一 ns -AAATem 


可 能 训 花 一 点 时 疝 来 理解 这 个 语法 。 所 不 周 的 是 使 用 模式 地 证 限制 受 专横 命令 影响 
的 行 ， 并 且 使 用 ! 反 转 模式 匹配 的 意义 。 简 单 地 说 ,“ 如 果 投 到 含有 3 个 连续 的 连 字 
符 的 行 ， 不 要 应 用 这 个 编辑 操作 .” 在 所 有 的 其 他 行 上 ， 应 用 替换 命令 ， 





可 以 在 脚 订 中 使 用 这 个 合 令 自动 揪 人 长 破 折 号 。 要 实现 这 一 功能 ， 可 以 将 sed 用 做 
tre 企 文件 的 预 处 理 程序 .文件 将 用 sed 处 理 ， 热 后 输送 到 troff。 


SeQ 7 -ISTemy GEile | Erotf 
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换 名 话说. sed 改变 了 这 个 输入 文件 并 卫 将 输出 直接 传递 到 troff， 而 不 用 创建 一 个 
中 间 文 件 。 编 辑 在 运行 中 进行 ， 而 且 不 会 影响 输入 文件 。 你 也 许 想 知道 为 什么 不 在 
原始 文件 中 直接 进行 永久 性 修改 ? “个 很 简单 的 原因 大 这 样 做 宙 有 必要 一 一 输入 
… 直 和 用 户 键入 的 内 容 保持 一 致 , 但 是 troff 能 产 汪 看 上 去 版 面 质量 最 好 的 和 输出。 而 
且 ，, 因为 它 央 媒人 厅 庞 天 的 shell 脚 本 中 ，, 所 以 连 字 符 到 长 破 折 号 的 转换 对 用 户 来 说 是 
不 可 见 的 ， 首 日 在 格式 化 进程 中 没有 额外 的 步 晤 。 








我 们 使 用 名 为 format 的 shell 脚本 . 使 用 sed 来 达到 这 个 月 的 .下面 是 这 个 shell 脚 
本 的 内容 : 


并 Piny sh 
REGT- PIC- Co_= 
计 1eS= CRPLLOnS- TOL==' Qitreftf -2ps' 
segd=- | seqd -os -viemyo 
whize 1 Sort D 1] 
电台 
CSP 富 - 1 
-3 了) ee | Sm 
-3 Pie | Pic" yy 
-NI Faofft= nretT eol- | col Set_ ， 
一 DB SoDEtICnS S1 
1 ”18311 
上 then f51ec-"STiLLESs S1" 
忆 1 丰 全 妃 袜 1 旋 “ 丰 DrImatz:Sl:fiea rot Ecoura": exiL 工 
Li 
它 呈 吕 亿 
Shift 
Qomne 


eval "cat $Tilees $seq | tbl Secm Sp2e | roff Soptions 8$col | 1 


这 个 脚 杰 对 “ 些 变 时 【以 美元 符号 为 前 缀 ) 进行 赋值 和 求 值 ， 这 些 变量 构成 了 这 个 
格式 化 和 打印 文档 的 命令 行 【《 注 意 我 们 为 nro 信 设置 了 -下 选项， 所 以 它 可 以 将 sed 
变量 设置 为 空 字符 串 ， 因 为 如 果 食 用 tro 弛 ， 我 站 只 想 生 成 这 种 改变 。 即 使 mro 和 可 
以 理解 这 个 特殊 的 字符 \(em， 进 行 这 种 改变 也 目 会 对 输出 有 实际 的 影响 ) 。 





当 对 “个 广 档 排版 时 ， 将 连 字 符 换 成 长 破 折 号 不 是 惟一 要 做 的 “美化 的 ” 工作 。 便 
如 ,多数 键盘 不 多 许 键 人 左 引号 和 右 引 号 (“ 和 ”与 "和 "相对 }。 在 tro 生 中 ， 可 以 
通过 键 人 两 个 连续 的 重音 符 或 “ 反 引 导 ”( ``) 来 标识 左 引 叶 。 健 人 两 个 连续 的 单 
引号 〈… ) 来 标识 右 引 号 。 我们 可 以 使 用 sed 将 每 个 观 引号 字符 换 成 一 对 单个 的 左 
引号 或 右 引 号 【也 决 十 上 下 文 }， 也 就 是 ， 当 排版 上 时， 产生 合适 的 “ 双 引 号 " 。 
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这 是 :个 相当 困 准 的 编辑 上 作 , 因为 右 许 多 涉 上 到 标点 符号 、 空格 和 制 表 符 的 各 种 
情况 。 脚 本 可 能 吾 上 去 如 下 所 示 : 

















只 

号 ES AT 
号 ATeT Temz 
31emo sfeT 

号 人 DO 站 ， 7 训 


第 -个 杰 换 命令 寻找 -- 行 开始 处 的 引号 六 把 它 换 成 .个 左 引号 。 第 一 个 命令 寻找 行 
结尾 处 的 引号 并 把 它 换 成 一 个 布 引号 - 剩 下 的 命令 寻找 不 同上 下 文中 的 引号 ,例如 ， 
标点 符号 、 空 格 、 制 表 符 或 长 破 折 号 前 后 的 引号 。 最 后 - .个 命令 允许 我 们 在 需要 的 
时 全 为 tre 作 提供 真正 的 双 引 号 (")。 我 们 将 这 些 命令 与 将 连 字 符 转 换 成 破 折 号 的 合 
令 放 署 介 “cleanap” 脚 本 中 ， 并且 在 使 用 troff 来 格 芝 化 和 打印 文档 的 管道 中 国 用 
它 。 





开始 PromiSed Land 


目前 ， 你 已 经 看 过 了 4 种 不 同业 型 的 sed 脚本 ， 以 及 它们 如 何 被 嵌 人 到 shell 脚 本 中 
以 创建 易于 使 用 的 应 用 。 当 使 用 sed 工作 时 ， 你 会 开发 越 来 越 多 的 用 于 创建 和 负 试 
sed 脚 本 的 方法 。 你 将 逐 汤 依赖 这 些 方法 ,并且 对 你 的 脚本 在 做 什么 和 为 什么 这 么 做 
充满 倩 心 。 


下 面 是 凡 个 旭 示 : 





1， 了 解 你 的 输入 ! 在 使 用 grep 设计 胸 本 .二 前 ， 仁 细 检 查 输入 文件 。 


2 购 天 乙 前 时 来 样 。 从 测试 文件 中 出 现 的 小 示例 开始 , 在 示例 上 运行 你 的 脚本 并 
且 确 信和 脚 永 能 正常 工作 。 记 住 , 确保 脚本 在 你 不 想 让 它 上 年 的 地 方 不 能 工作 同 
样 重要 。 然 后 增加 示例 的 规模 ， 试 着 增加 输入 的 复杂 性 。 


做 之 前 要 仔细 痣 虚 - 仔细 地 测试 你 添加 到 灶 本 中 的 每 个 命令 。 比较 输出 和 输 大 
文件 来 看 看 发 生 了 什么 变化 . 误 自 证 昌 你 的 著 本 是 完整 的 。 殉 定 在 输入 文件 正 
确 的 前 担 下 ， 你 的 脚本 三 定 可 以 正确 地 工作 ， 抽 不 忆 仅 是 你 认为 可 以 。 

4. 要 实用 ! 营 试 写成 你 用 sed 脚 本 可 以 完成 的 事 . 但 不 全 100 久 完成 这 个 工作 。 如 
朱 遇 到 困难 的 情况 , 检查 并 查看 它们 发 小 的 频 玖 程度 。 有 时 手动 来 完成 剩 下 的 
几 个 编辑 工作 比较 好 。 


人 


随 着 你 的 经 验 的 增长 ,在 以 上 列表 中 添加 你 自己 的 “脚本 化 担 了 示 ”。 当 使 用 awk 工 
作 时 ， 你 会 发 现 这 些 提 示 癌 样 很 有 用 。 





未 章 内 容 : 第 一 
e Sed 命令 的 语法 五 是 


。 注释 


Na 人 
基本 Sedi 
”和 志 加 .不 入 和 更 改 

ea 列表 

转换 

es 打印 

es ”打印 行 号 

SF 人 

e。 ”了 读 和 写 文件 

ee 讶 出 





sed 命令 集合 由 25 个 命令 组 成 ,本 章 我 们 介绍 4 个 新 的 编辑 命令 : 4 【删除 )，a (所 
加 )，i (搬入 ) 和 <c 【更改 )。 我 们 还 要 看 一 下 改变 脚本 中 广 程 控制 《例如 ,决定 下 
- 砂 执 行 娜 个 命令 ) 的 方式 。 


sed 命令 的 语法 
在 看 单个 命令 以 前 ， 需 要 回顾 一 下 关于 所 有 sed 命令 的 两 点 语法 。 在 上 一 章 中 , 我 
们 介绍 了 其 大 部 分 内 容 。 





行 地 址 对 于 任何 命令 都 是 可 选 的 ， 它 可 以 是 一 个 模式 ， 被 描述 为 由 斜 杠 、 行 号 或 行 
寻 址 符号 括 住 的 正则 表达 式 。 大 多 数 sed 命令 能 接受 由 喜 号 分 隔 的 两 个 地 址 ， 这 两 
个 地 址 用 来 标识 行 的 范围 。 这 些 命令 的 语法 格式 为 : 


Laaeress] comrar 吕 
有 - 些 命令 只 接受 单个 行 地 址 .它们 不 能 应 用 于 某 个 范围 的 行 。 它 们 的 诸 靶 客 式 为 : 
[Jine-adaress] cerman 可 
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记 住 命令 还 可 以 用 大 括 吕 进行 分 组 以 使 其 作用 于 同 -个 地 址 ; 


GOFeSS3T 
fenumaaac 了 
CGIGDa 
Coiaraa nm 了 


] 


第 “个 合 令 本 以 和 左 大 括号 放 冉 在 同一 行 ， 但 是 右 大 括号 必须 自己 单独 处 于 一 行 。 
每 个 命令 都 串 以 有 自己 的 地 址 并 多 许 有 多 层 分 组 -. 而 肌 ， 就 像 俞 令 在 大 括号 内 的 缩 
进 方式 : 样 ， 充 许 住 行 的 开始 处 播 人 空格 和 制 玫 符 。 


当 sed 不 理解 “个 命令 时 ， 它 打印 出 消息 “Command garbled (命令 不 清 )"。 在 傅 
令 后 添加 空格 会 产生 -个 小 的 语 滞 错误 , 这 是 不 允许 的 , 命令 的 结束 必须 在 行 的 绪 
尾 处 。 


这 个 约 东 的 依据 站 来自 “个 文档 中 “无 忆 栽 ”特征 提供 的 : 如 昌 命 令 之 间 用 一 个 分 
号 分 隔 , 报 么 可 以 将 多 个 sed 命 令 放 在 同一 行 ( 广 上。 下 面 的 示例 在 语句 构成 上 是 
上 确 的 : 


刀 ; 员 


然而 ,在 荆 命令 后 面 帮 曾 一 个 空格 会 导致 语 站 错误 .而 在 4 命令 前 夺 放 置 一 个 空格 
是 可 以 的 。 


不 提倡 在 同行 放置 多 个 命令 ,因为 即使 将 这 些 命令 写 在 各 自 的 行 上 ,sed 儿 本 也 是 
很 蕉 阅读 的 (从 意 ， 更改、 揪 人 和 追加 命令 必须 在 多 行 上 指定 ， 不 能 在 同 , 行 上 指 
定 )。 


注释 

可 以 使 用 广 释 描述 脚本 的 作用 ,来 为 脚本 编写 文档 。 从 本 章 开 始 , 完整 的 即 本 示例 
都 以 一 个 注 积 行 开 始 . 注释 行 可 以 作为 脚本 的 第 一 行 出 现 。 在 sed 的 System V 版 本 
中 ,注释 只 充 许 出 现在 第 一 行 。 在 一 些 版 本 中 , 包括 SunOS 4.1x 环境 下 运行 的 sed 
以 及 GNU sed， 可 以 在 靶 本 的 任何 地 方 放置 注释 ， 全 是 限 任命 令 行 的 后 面 。 本 书 





证 芷 : 令 人 惊讶 的 恶 ， 用 分 号 分 隧 命 令 的 用 法 不 在 POSIX 标准 中 
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的 示例 和 蝎 多 地 于 循 System V sed 的 限制 ， 将 沪 释 限制 在 脚本 的 第 一 行 。 然而， 使 
用 注释 作为 脚本 文档 往往 非常 有 效 ， 如 果 侈 的 sed 版 本 序 许 则 应 读 使 用 它 。 


注释 行 的 第 “个 字符 必须 是 “ 号 。 诈 和 轰 行 的 话 落 如下: 
漠 [] 

下 例 显示 了 一 个 嘟 本 的 第 一行 ， 
上 WSEa 六 EC 村 DVDFdSLSY 上 | 安 呈 


如 果 有 必要 , 可 以 用 反 筑 条 类 结 束 前 面 的 行使 得 注 炎 可 以 炙 续 多 行 【 注 2)。 为 了 前 
后 -至 ， 必 须 用 站 开始 继续 行 ， 以 便 使 行 的 日 的 显而易见 ， 


如 果 跟 在 交 后 面 的 下 一 个 字符 是 a， 那 么 脚本 不 会 日 动产 生 和 输出 。 这 和 指定 命令 行 
选项 -是 等 价 的 . 跟 在 aa 后面 的 其 余 的 内 容 被 看 做 是 注释 , 在 POSIX 标 准 中 , 采用 
这 种 方式 的 多 必须 是 文件 的 前 两 个 字符 。 


我 们 已经 讨论 了 替换 命令 的 许多 用 法 。 下面 是 它 的 详细 的 语法 : 


[电站 FeSS] 8 PEterm7 TeEPT CTIEILA 工 工 志 可 与 


这 里 修饰 赫 换 的 慰 志 .Pasgs 是 : 
生 
nn 1 和 独 512 之 间 的 :个 数字 ， 表 示 对 本 模 上 成 中 指定 模式 第 次 出 现 的 情况 进行 替 
换 . 





针对 模式 空间 的 所 有 出 更 的 情况 进行 全 局 更 改 。 而 疫 有 8g 时 通常 只 有 第 一 次 出 现 
的 情况 被 取代 ， 

B ”打印 模式 空间 的 内 容 。 

是 方 e 
将 模式 空间 的 内 容 扎 到 文件 je 中。 





注 2: 使 用 GNU sed 《版 本 2.0)》 时 不 起 作用 。 
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替换 命令 应 用 于 与 edadress 匹配 的 行 。 如 果 没 有 指定 地 址 ,那么 骨 应 用 十 与 patftera 
匹配 的 所 有 行 。 交 时 正 则 表达 式 作为 地 址 来 提供 ， 并 且 没 有 指定 模式 ,那么 蔡 换 命 
令 瑟 配 用 地 址 匹配 的 内 容 。 当 替换 命令 是 应 用 于 同一 个 地 址 上 的 多 个 命令 之 一 时 ， 
这 可 能 会 非常 有 用 。 可 以 参看 本 章 后 面 的 “检验 宕 苦 页 ”一 节 中 的 示例 ， 


和 地 址 不 同 的 是 ,地址 需要 .个 必 为 定 界 符 的 疼 械 《站 ， 而 正则 表达 式 可 以 使 用 任 
意 字 符 来 分 丫 ， 只 有 换行 符 除 外 . 因此 ， 如 果 模 式 包含 疼 杠 ,那么 可 以 选择 另 一 个 
字符 作为 定 界 符 ， 例 刘 感 吗 号 。 


EuSry7 Sha TIzaSr2emal]ll 


注意 ,， 定 界 符 出 现 了 3 次 而 且 在 repiacement 之 后 是 必需 的 。 不 管 使 用 哪 种 定 界 符 ， 
如 果 它 出 现在 正则 表达 式 中 、 或 者 在 在 黎 文 本 中 ， 那 么 就 用 反 斜 杠 来 转 祥 它 。 


共 前 ,计算 抽 用 固定 长 庶 的 记录 来 存储 文本 。 一 行 在 出 现 许多 字符 ( - 般 为 80 个 ) 
之 后 结束 ,然后 开始 下 一 行 。 数据 中 设 有 显 式 的 字符 来 标记 一 行 的 结束 和 下 一 行 的 
开始 , 每 行者 有 相同 的 【固定 的 ) 数量 字符 。 现 在 的 系统 比较 灵活 ， 它 们 使 用 特 
殊 的 字符 ( 称 为 换行 符 (newlire)) 标记 行 的 结束 .这样 就 允许 行 的 长 庆 为 任意 ( 注 
3 





因为 在 内 部 存储 时 换行 符 只 是 另 - -个 字符 ， 所 以 正 则 表达 式 可 以 使 用 “wm” 来 匹配 
髓 和 人 的 换行 符 。 正如 将 在 下 一 章 所 看 到 的 那样 ,在 模式 空间 中 当 另 一 行 扩展 到 当前 
行 的 特殊 情况 下 ， 就 会 出 现 这 种 情况 【参见 第 二 章 “ 了 解 基本 操作 ”中 关于 行 寻 址 
的 讨论 和 第 三 章 “ 了 解 正则 表达 式 语法 ”中 有 关 正 则 表达 式 语 站 的 讨论 )， 

鲁 


repdacePietl 是 “个 字符 串 ， 用 来 替换 与 止 则 表达 式 匹 配 的 内 容 〈 参 见 第 三 举 中 的 
“匹配 的 范围 ”一 节 )。 在 replacement 部 分 ， 只 有 下 列 字符 有 特殊 含 立 : 
六 “用 正则 表达 式 匹 起 的 内 容 进 行 替 换 。 


此 配 第 于 个 子 串 (2 是 一 个 数字 )， 这 个 子 中 以 前 在 pattern 中 用 “和 “0” 
指定 。 





注 3: 或 多 或 少 。 诗 多 UNIX 程序 对 它们 处 理 的 行 的 长 度 部 有 内 郡 限制 。 但 大 多 数 人 NU 和 袜 
序 温 调 这 样 的 限制 。 
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\， “ 当 在 替换 部 分 包 伪 “ 与 ”符号 ( 僧 )， 反 秆 杜 1) 和 替换 命令 的 定 界 符 时 可 用 
\ 转 避 它 们 。 另外. 它 用 于 转交 换行 符 并 创建 放行 repiecememz 字 特 串 。 


因此 ， 除 了 止 则 表达 成 中 的 元 字符 以 外 ，sed 的 奉 换 部 分 也 有 元 字符 。 参 见 下 一 节 
“替换 元 字符 ”中 使 用 它们 的 示例 。 


Jug 可 以 组 会 使 用 ， 只 要 有 意义 。 例 如 ，gp 表示 对 行进 行 全 局 替换 并 打印 这 一 行 。 
迄今 为 止 , 多 局 标志 是 最 常用 的 。 没有 它 , 走 换 只 能 在 行 的 第 一 次 出 现 的 位 置 执行 。 
打印 标志 和 号 标志 与 打印 命令 和 写 命令 (本章 后 面 会 进行 讨论 ) 的 功能 相 局 ， 但 有 
一 个 重要 的 区 别 。 这 些 操作 是 随 赫 换 的 成 功 而 发 生 的 . 换 名 话说 , 如 果 进 行 了 替换 ， 
那么 这 个 行 被 打印 或 写 到 文件 中 。 因 为 玛 认 的 动作 是 处 理 所 有 的 行 , 不 管 是 否 执行 
了 任何 动作 ， 当 取消 默认 的 输出 时 【-z 选 项 ) 通常 使 用 打印 和 号 标 志 。 另 外 ， 如 果 
脚本 包含 匹配 同 - : 行 的 条 个 蔡 换 命令 , 那么 那 - 行 的 多 个 备份 就 会 被 打印 或 气 到 文 
件 中 。 


数字 标志 很 少 使 用 , 在 这 种 情况 下 , 正则 表达 式 在 一 行 上 重复 匹配 ， 而 只 需要 对 其 
中 某 个 位 置 的 匹配 进行 亏 换 。 例如， 某 输入 行 也 许 包含 好 1 输入， 也 诈 包 省 多 个 制 
者 位 。 假 设 每 行 有 3 个 制 表 符 . 并 且 要 用 “>” 赫 换 第 一 个 制 表 位 ， 则 可 以 使 用 下 面 
的 替换 命令 来 完成 雇 功 能 : 


Sr 


…” 表 坟 - 个 真正 的 制 表 符 ， 而 制 表 符 在 屏 世上 是 不 可 见 的 。 如 果 输 和 是“ 行 的 文 
件 ， 如 下 所 示 : 


COLIumnleeciurnzecolumngeacclunmr 
对 这 个 文件 运行 以 上 脚本 产生 的 输出 如 下 : 
f 切 JU te UTCoOLIurm3ecelurmna 


往 意 , 如 果 没 有 数字 标志 , 则 替换 命令 只 替换 第 一 个 制 瑚 符 (因此 “1” 可 以 被 看 作 
是 默认 的 数字 标志 )。 
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蔡 换 元 字符 
蔡 换 元 字符 是 反 斜 杠 {)、“ 与 ”符号 ( 皮 ) 和 W。 反 斜 杠 一 般 用 于 靳 义 其 他 的 元 字 
符 ， 但 是 尼 在 替换 字符 串 中 也 用 于 包含 换行 符 。 





我 们 可 以 对 前 面 的 示例 做 一 些 改 动 ， 用 换行 符 取 代 每 行 上 的 第 二 个 制 表 符 。 


己 7 二 


2 


注意 ， 在 反 插 杠 洁面 不 允许 有 空格 。 这 个 脚本 产生 下 面 的 结果 : 


eolLlurmnlacrolumrz2 
辫 折 1 Una3eC TU 


曙 一 个 示例 来 自 于 将 troft 文件 转换 成 Ventura Publisher 的 ASCII 输入 格式 。 它 将 
下 面 的 tro 在 行 : 


-Ah "Ma3cr HEacmng 
转 罗 成 业 似 的 Yentura Publishner 行 : 


人 A HERD - MejDr eadqlLDn 


这 个 问题 中 的 难点 是 这 “ 行 需要 前 后 都 有 空 行 。 这 是 一 个 编 气 多 行 替换 字符 串 的 问 
题 ， 


2 
SAY 让 症 二 


昌 及 日 五 aD 一 了 
怠 六 "77 可 

号 7 

上 


第 一 个 替换 命令 用 两 个 换行 符 和 “@A HEAD =” 取 代 “.Ah”， 在 行 结尾 处 有 必要 
用 反 妊 林 转交 搞 行 符 . 第 二 个 替换 删除 了 引号 .最 后 一 个 命令 匹配 模式 空间 中 的 行 
的 结尾 (不 是 嵌入 的 换行 符 )， 和 并 在 它 后 面 语 加 - :个 换行 符 。 


在 下 一 个 例子 中 ， 反 舍 红 用 来 转 义 “与 ”符号 ， 它 作为 普通 字符 出 现在 替 的 部 分 。 


-+ rr 六 一作 一 一 
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号 让 民 矶 人 7 有 电工 7 下 有 和 站 所 Ca 二 全 ， InC .7 


很 容易 忘记 作 普 通 字 特 出 现在 替换 部 分 的 “与 ”符号 。 如 果 在 这 个 例子 中 没有 对 
它 进行 转交 ， 那 么 输出 结果 为 “DReilly DRA Associates, Inc."。 


作为 元 字符 ， 与 "符号 (区 ) 表示 模式 匹配 的 范围 , 不 是 被 匹配 的 行 。 可 以 使 用 “与 ” 
符号 匹配 “个 单词 并 且 用 troff 请 求 来 包围 它 。 下面 的 示例 用 点 数 请 求 包围 一 个 音 
启 ; 


SUNTI 基 AAA 瑟 一 字 和 可口 7 可 


因为 反射 杠 也 是 替换 字符 串 中 的 元 字 特 ,所 以 需要 用 两 个 反 斜 杠 来 输出 一 个 反 侧 杠 ， 
赫 换 字符 于 中 的 “ 胡 ” 表 示 “UNIX" 。 如 果 输 入 行为 : 


局 m 上 he ODNTIX OperaLing System 


那么 替换 命令 将 产生 : 


on the AS-2UNIXYSD Operating System。 


当主 则 袁 达 式 匹配 单词 的 变化 时 ,“ 与 ”符号 灶 别 有 用 。 它 允 许 指 定 一 个 可 变 的 替换 
字符 串 ， 该 字符 串 相 当 子 匹配 的 内 容 与 实际 内 容 匹 配 的 字符 串 。 例 如 , 假设 要 用 图 
撕 号 揪 住 文档 中 对 已 编号 部 分 的 任意 交叉 引用 。 换 句 话说 , 任意 诸如 “See Section 
1.4 "或 "See Section 12.9" 的 引用 都 应 该 出 现在 圆 揪 号 中 , 如 *(See Sectiom 12.9)”。 
正则 表达 式 可 以 匹配 数字 的 不 同 组 合 ， 所 以 在 替换 字符 串 中 可 以 使 用 “和 ”并 桥 起 
所 证 配 的 内 容 。 


号 See SeCctiem [1-9] [ 口 - 当 ] ww 。[ 工 -8] [ 申 - 印 ] 二 1) 7 
“与 ” 符 屿 秆 于 在 替换 字符 串 中 引用 厚 个 匹配 内 容 。 


现在 ， 我 们 来 看 一 种 元 字符 ， 它 用 于 选择 被 匹配 的 字符 串 的 任意 独立 部 分 , 并 且 在 
替换 字符 串 中 回调 它 。 在 sed 中 转 义 的 图 括号 播 作 正则 表达 式 的 任意 部 分 并 且 保 存 
它 以 备 回调 。 一 行 最 多 允许 “保存 ”9 次 。“w” 用 于 回调 被 保存 的 匹配 部 分 ，#* 是 
从 1 到 9 的 数字 ,用 十 引用 特殊 “保存 的 ”备用 字符 串 ， 


例如 ， 当 节 号 出 现在 交叉 引用 中 时 要 表示 为 用 粗 体 ， 可 以 编写 下 面 的 蔡 换 : 


8 Se 人 Section YATTL-9] [0-3]Aw% fl-9][0-93]*vAvLvAEBY2YSEP/ 
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指定 了 随 对 转交 的 图 插 号 , 第 -对 捕获 “See Section 癌 ?《{ 因 为 它 是 固定 的 字符 惠 ， 
它 可 以 直接 告 替换 字符 串 中 简单 地 被 更 新 键 人 ) .第 一 对 捕获 节 号 。 在 替换 字符 种 中 
用 “1 ” 男 阅 第 “个 被 保 在 的 子 串 ， 用 “\2” 辐 调 第 一 个 被 保存 的 子 串 ， 用 粗 体 
字 请 求 包 转 ， 





我 们 可 以 使 用 类 似 的 技术 匹配 行 的 部 分 内 容 并 交换 它们 。 例如 , 假设 在 -- 行 上 有 用 
叶 号 分 辣 的 两 个 部 分 .我 们 可 以 匹配 每 个 部 分 , 把 它们 放置 在 转 义 的 圆 括号 内 并 在 
替换 过 程 交 换 它 们 。 





S 避 B 七 忆 寻 局 读 荆 

ELrStr Second 

CnE WwW2 

号 Be "Br iSE YN ANDSIAT 上 昌 1 
SECCODmoL 上 二 了 号 

十 W 吕 :CITIE 


重要 的 昆 可 以 接任 意 项 译 回 调 保存 的 子 串 ， 井 且 可 以 多 次 调用 , 正如 在 下 -一 个 示例 
中 将 要 看 到 的 那样 。 


校正 案 引 条 目 


稍 后 , 在 本 书 的 awk 部 分 中 , 我 们 将 给 出 -个 格式 化 索引 的 程序 , 例如 本 书 的 索引 。 
创建 索引 的 第 一 步 是 在 文档 文件 中 放置 索引 代码 。 我 们 使 用 命名 为 .XXX 的 索引 宏 ， 
它 采 用 单个 参数 ， 即 索引 条 此 。 样 本 索引 条 日 如 下 : 


其 “33ed，3S0bSEtTTLLEOn Commaneo" 


每 个 索引 条 有 日 占用 -- 行 。 当 运行 一 个 索引 时 , 会 得 到 一 个 带 有 页 码 的 索引 条 目的 集 
合 ， 访 集合 接着 被 排序 并 放 人 到 一 个 列表 中 。 编 钳 器 常常 会 发 现 列表 中 需要 进行 收 
正 的 慌 误 和 不 - 致 之 处 。 简短 言 之 ,必须 查找 到 索引 条 目 驻 留 的 文件 ,然后 进行 校 
正 ， 这 荐 一 件 痛苦 的 事情 ， 特 别 是 当 有 大 量 的 条 县 需要 被 校正 的 时 候 。 





sed 在 对 一 组 文件 进行 这 些 编 辑 工 作 时 林 以 提供 报 天 的 帮助 . 可 以 简单 地 在 sed 脚 本 
中 创建 一 个 编辑 列表 . 然后 在 所有 的 文件 中 运行 该 脚本 . 关键 是 替换 命令 需要 将 地 
和 钼 限制 在 以 “.XX” 开 始 的 行 。 脚 本 本 射 不 能 改动 正文 。 


假设 我 们 要 将 上 摧 的 索引 条 肯 换 成 “sed,substitute comzmand"。 可 以 使 用 下 面 的 命 
令 座 完成 : 
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SSJBSLLILUIOn Comimanarsed SuUbstituse Commanay 


世上 地 址 匹配 所 有 以 “.XX ”开始 的 行 ， 并 且 只 有 在 那些 行 上 才 可 以 进行 替换 。 你 
也 许 会 想 ， 为 什么 不 指定 一 个 较 短 的 正则 表达 式 昵 ? 例如 : 


DBSL LU CGS3UEBS 一 了 二 全 ” 


答案 很 简单 ， 其 他 条 日 中 “substitution ”的 使 用 才能 是 正确 的 , 我 们 不 想 对 这 些 条 
月 进行 改变 。 





我 们 可 以 进一步 创建 一 个 shell 脚 本, 用 于 建立 :个 待 编辑 的 索引 条 日 列表 , 为 下 面 
一 系列 的 sed 碎 换 命令 做 好 准确 。 


提 1 了 也” 

失 ndex .er -Compbl2e 123t of inaGex Entriccs For editznz， 
grep ".XE' S* | sert -| 

号 名 


号 -其 和 1 


shell 脚本 indexedit 使 用 grep 从 命令 行 上 指定 的 任意 数量 的 文件 中 ， 提 取 和 包含 索 
引 条 目的 所 有 行 。 它 将 列表 传递 给 sort, sort 使 用 -x 选项 来 排序 和 得 除 重 偶 的 条 目 。 
然后 这 个 列表 被 输送 到 ssed， 其 中 ,这 “ 行 的 sed 脚本 则 构建 了 一 个 赫 换 命令 。 


我 们 现在 来 进一步 查看 以 上 的 sed 脚本 。 F 面 就 是 其 中 的 正则 表达 式 ; 


人 





匹 配 整个 行 ， 保 存 索引 条 目 以 备 回 调 。 下 面 是 替换 字符 帅 : 
人 

它 产 生 以 地 址 开头 的 蔡 换 命令 : 地 址 开始 为 射 丁 ， 然 后 是 两 个 反射 本 一 和 输出 一 
个 反 斜 杠 以 保护 跟 在 后 面 的 “.XX” 中 的 句点 ， 然 后 出 现 - -个 空格 ， 接 着 是 另 一 个 
午 杠 以 结束 地 址 。 接 下 来 我 们 输出 后 面 跟 有 和 斜 杠 的 “s”， 然 后 回调 被 保存 的 部 分 用 
来 作为 止 则 天 达 式 .这 后 面 跟着 一 个 斜 杠 并 且 我 们 再 次 调用 保存 的 子 串 并 将 它 作 为 
替换 字符 串 。 最 后 用 一 个 斜 杠 结 划 这 个 命令 。 

当 index,edit 脚本 在 文件 王 运 行 时 ， 创 建 类 似 下 面 的 “个 清单 : 


妆 土工 二 日 区 ,eeGit chD5 
上 PED 本 COmmana ial" abband cormmanaral "7 
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人 COIUTRTG Ca 吉 TI 已 CCIImaTIG 2 

六 也 可 所 挛 CTImamGEC Chan 可 有 CaTIGTC) 7 
CDmIaTIGS Se SUImBTY ECOUTBRTIC :Se 本 ,SUItmtery FF 
37 有 Lete COrmaned io 7 slere CaormmanafGl "7 

六 1] 放 开 LOIUIT3RGE) ”有 吕 和 上 EL CGINTIETGTIL)》 

XXX SIDe TUmbers:Dprinting" "line numbers:printing" 7 
Comimanadi 1 "1ist eaommanat 7 


这 个 输出 可 以 被 捕获 到 “个 文件 中 。 然 后 可 以 删除 不 需要 改变 的 条 目 , 而 且 .可 以 通 
过 编辑 奉 换 字符 串 来 完成 修改 。 这 样 ， 可 以 把 这 个 文件 作为 sed 脚本 来 纠正 所 有 文 
档 文件 中 的 索引 条 日 。 


当 处 理 有 许多 条 目的 厚 书 时 , 也 许 你 可 以 要 再 次 使 用 grep 从 index.edit 的 输出 中 提 
取 特 殊 的 条 日 , 并 把 它们 纳入 昌 编 加 的 浆 件 中 。 这 样 可 以 避免 费力 地 处 理 无 数 的 条 
目 。 


这 个 程序 有 个 小 缺点 。 它 应 该 在 索引 中 的 普通 文字 中 查找 元 字符 , 并 且 在 正则 表达 
式 中 保护 它们 。 例 如 ,如 果 索 引 条 日 包 售 一 个 星 寻 ， 它 将 不 会 按 尼 号 解释 ， 市 是 作 
为 一 个 元 字符 解释 。 为 了 进行 有 效 的 改变 需要 使 用 用 个 高 级 的 命令 , 所 以 我 们 暂且 
将 改进 其 本 的 工作 榈 置 ， 直 到 下 一 章 中 再 继续 进行 相关 的 探讨 。 


删除 


前 面 已 经 展示 了 删除 命令 (4) 的 示例 。 它 采用 -个 地 址 , 如 果 行 匹 瑟 这 个 地 址 就 册 
除 模式 空间 的 内 容 。 


晰 除 命令 还 是 “个 可 以 改变 丢 本 中 的 控制 访 的 命令 。 这 是 因为 一 执 行 这 个 命令 ， 
那么 在 “ 空 的 ”模式 空间 〈 广 4) 中 就 不 会 再 有 命令 岳 行 。 有 删除 命令 会 导致 读 取 新 
的 输入 行 , 而 编辑 脚本 则 从 头 开始 新 的 一 轮 (这 一 行为 和 mext 命 令 的 行为 相同 ,本 
章 后 面 将 介绍 next 命令 ) 。 


重要 的 是 : 姐 果 某 行 匹 配 这 个 地 址 ,那么 就 删除 整个 行 , 而 不 只 是 删除 行 中 匹配 的 
部 分 (村山 除 行 的 一 部 分 , 可 以 使 用 替换 命令 并 指定 一 个 空 的 替换 ), 上 一 章 展 示 了 
剔除 空 行 的 命令 : 








证 4:; UNIX 文件 写 道 :“ 不 友 诗 在 逢 删除 的 行 上 进行 连 一 步 摊 作 ”。R.IP。 
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出 除 命令 的 另 -个 出 处 是 去 除 某 些 tro 和 请 求 , 例如 添加 空格 , 分 页 和 填充 模式 的 打 
开 和 关闭 ; 

Anv.SD1a 

”vbDP/aQ 


7 了 ADEY7O 
”于 本 


这 些 命令 出 除 -个 完整 的 行 。 例 如 ， 第 …… 个 命令 删除 行 “.sp 1” 或 “.sp.03v”。 


删除 命令 可 以 用 于 得 除 一 个 范围 内 的 行 .在 上 -- 章 中 , 有 -个 通过 删除 宏 .TS 和 .TE 
之 间 的 行 来 删 你 文件 中 的 所 有 表格 的 示例 。 还 有 一 个 删除 命令 (D) 用 于 删除 多 行 
模式 空间 的 一 部 分 。 这 个 高 级 命令 将 在 下 “ 章 介 绍 。 


追加 、 插 入 和 更 改 


追加 (al)、 揪 入 【ij 和 更 改 《e) 命令 提供 了 通常 在 交互 式 编辑 器 〔 例 如 节 ) 中 执 
行 的 编辑 功能 。 你 会 奇怪 地 发 现 ， 可 座 使 用 这 些 相同 的 命令 在 非 交互 编辑 器 中 “给 
和 人” 认 本 。 这 些 命令 的 语法 在 sed 中 不 沼 用 ， 因 为 它们 必须 在 多 行 上 来 指定 。 诬 潜 
如 下 : 


亿 加 [35pe-aadress]as 
话 所 和 X 志 

捅 和 人 121ipe-aadress]iv 
在 合式 志 

更 改 [aadressleny 
十 扎 习 十 


揪 入 命令 将 所 提供 的 文本 该 置 在 模式 空间 的 当前 行 之 前 . 追 划 命令 将 娘 本 放置 在 当 
前 行 之 后 。 更 改 命令 用 所 提供 的 文本 取代 模式 空间 的 内 容 ， 


这 些 命令 中 的 每 一 个 都 要 求 后 面 跟 一 个 反 斜 本 用 于 转交 第 一 个 行星 .zext 必 须 从 下 
一 行 开 始 。 要 输入 多 行文 本 ， 等 个 连续 的 行 都 必须 用 反射 杠 结束 ， 最 后 一 行 例 外 。 
人 例如， 也 面 的 播 人 命令 在 匹配 “<Larry' Address>” 行 的 地 方 插 人 两 行文 本 : 


<LSaTTY SBS GT 中 ET 
TD 疝 TGSS COUT 


rr rr 人 二 Ta 和 Li 六 rr 一 mirror 一 一 一 一 一 -一 


必 .第 五 齐 





French TjiK，TM 
而 且 ， 如 果 文 本 包含 :个 字面 的 反射 丁 ， 要 再 添 如 个 反 斜 杠 来 转 叉 它 【 注 )。 


追加 命令 和 播 人 俞 令 只 应 用 于 单个 行 地 址 ， 而 不 是 -个 范围 内 的 行 。 然 而 , 更改 命 
令 可 以 处 理 一 个 沧 围 内 的 行 。 在 这 种 情况 下 , 它 用 - :个 文本 备份 到 代 所 有 被 寻 址 的 
行 。 换 条 话说 ， 它 删除 这 个 范围 中 的 所 丰 行 , 俱 是 坦 供 的 文本 只 被 输出 一 次 。 例 如 ， 
当下 面 的 脚本 在 包含 邮件 消 筷 的 文件 上 运行 时 : 
REOIL 
=HaILI HeadeY Rearmcwv 忆 芝 > 
删除 整个 邮件 消息 头 关 用 行 “<Mail Header Reimoved>” 取 代 它 。 注 音 ， 当 更 改 命 
令 作 为 一 组 俞 令 之 一 被 封 肝 在 大 括号 中 并 作用 于 - -个 范 国内 的 行 时 , 它 和 将 具有 相反 
的 功能 。 例 如 ， 下 面 的 半 本 : 
TO 了 AS 
扫 ” Rom yy 口 
己 入 


=Mail HeadeTr 及 ecwe 台 > 
了 


将 对 这 个 范围 内 的 每 行 输出 “<Mail Header Removed>”"。 所 以 ， 当 前 面 的 示例 输 
出 文本 一 次 时 ， 这 个 示例 会 输出 10 次 、 如 果 在 这 个 范围 内 有 10 行 的 话 。 


更 改 命令 清除 模式 空间 . 它 在 模式 空间 中 与 删除 命令 有 同样 的 效果 。 肝 本 中 在 更 改 
命令 之 后 的 其 他 命令 没有 被 提供 。 


插 大 命令 和 追加 命令 不 影响 模式 空间 的 内 容 。 提供 的 文本 将 不 丐 配 脚 本 中 后 续 命 令 
中 的 任何 地 址 ,那些 命令 也 不 影响 该 文本 。 不 管 什么 更 改 改变 了 模式 空间 ,所 提供 
的 文本 仍然 会 正确 地 输出 。 当 软 认 的 输出 受到 抑制 时 也 是 这 样 所 查 供 的 文本 
将 被 输出 ， 即 使 模式 空间 不 是 那样 的 。 而 且 ， 所 提供 的 文本 不 影响 sed 的 内 部 行 计 
数 器 。 








注 5: 有 梯 初 的 UNIKX 文 件 提 到 , 在 提供 的 文本 中 的 任何 前 导 制 表 符 或 空格 在 输 出 上 都 直 会 出 
现 。 这 是 唔 版 本 中 的 情况 ， 例 如 SunOS 4,.1.x 和 AsrmicByeed on Sojar 让 。8System V 
和 GNU sed 不 会 调 除 前 导 空 和 外。 如果 它 们 在 你 的 系统 上 消失 ,解决 方法 是 在 行 的 开 
始 处 【第 一 个 制 表征 或 空 烙 之 前 ) 放置 反 寻 杠 。 反 村 杠 不 输出 。 
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下 面 来 看 插入 命令 的 示例 。 假设 我 们 想 为 一 个 特殊 文档 包含 的 所 有 文件 握 供 -一 个 局 
部 的 宕 文件。 另外 ,我 们 想 定 义 - :个 页 屠 字符 串 来 将 文档 标识 为 草稿 。 下 面 的 脚本 
在 文件 的 第 行 之 前 插入 两 行 新 行 : 

工 1% 


号 操 站 总 忆 上 口 吕 、 
< 刁 5 C 了 忆 LTS 七 也 上 号 下 


在 sed 执 行 这 个 命令 之 后 , 模式 空间 不 会 更 改 。 其 中 的 新 文本 在 当前 行 的 前 面 输出 。 
后 续 命 令 不 能 成 功 地 匹配 “macros” 和 莎 “First Draft"。 


对 上 例 进行 修改 可 以 实现 在 文件 的 结尾 处 应 加 行 的 追 名 命令 : 


生 间 A 
下 cid 局 夺 二 - 上 己 


$ 是 行 寻 址 符号 ， 用 于 匹 包 文 件 的 最 后 一 行 。 提 供 的 文本 在 当前 行 之 后 输出 ， 所 以 
它 成 为 输出 中 的 最 后 一 行 . 注 塌 ,即使 只 输出 一 行 , 提供 的 文本 也 必须 自 成 一 行 状 
县 与 追加 命令 放 在 同一 行 。 


下 个 示例 展示 了 在 同一 个 脚本 中 使 用 插入 命令 和 追加 命令 。 其 任务 必 在 初始 化 列 
表 的 安之 前 诡 加 几 个 tro 好 请求， 而 及 在 关闭 列表 的 宕 之 后 也 添加 几 个 。 

LS 

.In 5nmnv 

.SD .3 

了 工 各 号 

.LI 有 

,SSD -3 


插入 命令 在 .Ls 安之 前 放置 两 行 ， 而 雹 加 命令 在 .Le 者 之 后 放置 两 行 。 


播 人 命令 可 以 用 来 在 当前 行 之 前 放置 一 个 空 行 , 或 者 附加 命令 用 来 在 当前 行 之 后 故 
置 一 个 空 行 ， 方 法 是 让 命令 后 面 的 行为 空 。 


更 改 命 令 用 所 提供 的 文本 取代 模式 空间 的 内 容 。 实际 上 ， 它 删除 当前 行 并 及 在 读 位 
置 放 置 所 提供 的 文本 。 当 想 要 匹配 行 并 且 末 个 取代 它 时 可 以 使 用 这 个 命令 。 我 们 来 
看 一 个 示例 ,文件 包含 许多 的 显 式 tro 人 空格 请 求 ( 具 有 不 同 数量 的 空格 》 的 情况 ， 
请 看 下 面 系列 : 
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-SBD 工 .5 
.所 

.SEE 
,有 中 上 -SSV 
-5 
-有 了 


如 果 你 想 要 将 所 有 的 参数 都 换 成 .5”, 那么 使 用 更 改 命 令 比 党 试 匹 权 所 有 单独 的 参 
数 ， 并 进行 正春 的 替换 可 能 更 容易 。 


SR 
-SPD 


这 个 命令 允许 我 们 忽略 参数 并 取代 它们 ， 而 不 管 它们 是 什么 。 


列表 


列表 命令 1) 用 于 显示 模式 空间 的 内 容 , 将 非 打 印 的 字符 显示 为 两 个 数字 的 ASCI 
代 枉 。 其 功能 类 似 于 丰 中 的 列表 命令 【 册 。 可 以 使 用 该 命令 来 检测 输入 中 的 “不 可 
如 ”字符 《入 和 )。 

SC 七 七 号 日 上 7 BECDaL 


于 全 已 了 号 已 喜 七 工 荆 nG 所 让 SPeCIB CDBaTBaCLETS :站台 
?到 “全 


六 Bad - 蕊 - 日 " 工 ” 七 避 号 在 了 8DCh 址 
HTe 沁 互 剖 t 工 DG 区 革 总 PEC 间 ] 局 间 上 上 避 十 TS iT 上] 愉 遇 卫 
5 AD7 


$ 井上 BBC with GNU Be LO 

E 恒 日 昌 昌 -五 -已 1” 记忆 如 七 委 耳 己 攻 丰 工 

FEEITe js 五 SETrin 吕 E SPecIalL CharaCters nb1 ADO3 
章 


国 为 列表 命令 产生 立即 的 输出 ,所 以 我 们 抑制 了 砍 认 的 输出 , 否则 将 得 到 行 的 重复 
复制 。 





证 看 : GNU scd 显示 革 些 字符 ,二 如 , 回 村 桂 , 使用 的 是 ANSIC 转 庆 序 列 ， 而 不 是 八进制 。 
也 计 ， 对 于 束 悉 口语 言 (或 者 awkK， 正 如 我 们 在 本 书后 画 和 将 条 到 的 那 痒 ) 的 人 来 说 末 
会 这 些 比 较 容 易 。 


rreoms rr- 
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在 sed 中 不 能 用 ASCII 值 匹配 字符 【也 不 能 匹配 八进制 数值 ] ( 注 了 )。 相 反 ,， 在 Yi 
中 必须 找到 -- 个 组 侣 键 来 产生 它 ,， 使 用 CTRL-Y 引 用 和 读 字 符 。 例 如 ,可 以 匹配 一 个 
BSC 字符 人 口 。 请 看 王 面 的 脚本 : 


# 列 出 列 计 用 “Escape” 丸 代 “*17 

sacabe， 
平面 是 一 个 一 行 的 测试 文件 : 

The Greecet ”| 1 避 moview StaTring StLeve MeQueen， 
运行 以 上 脚 杰 产生 下 列 输 出 


The Gresst 33 8 站 PiDvIe Btarring Steve MeCueen 
The reatr ESCcape 13 已 movlie starring SBSceve Meoueen . 


GNU sed 产生 的 是 这 些 : 


The Great “1Db SS 己 FDIe 台 蕊 有 TrinS 呈 teve MeRueen。 
The Great EScaDpe ji3 aa movie starring 3reve MecQueen . 


在 Yi 中 通过 键入 CTRL-VY， 然 后 按 下 ESC 键 ， 产 生 宇 符 “^[。 


从 nroff 文件 中 去 除 不 可 打印 的 字符 


UNIX 格式 化 程序 mro 在 产生 行 式 打印 机 和 CRT 显 示 的 输出 。 为 了 达到 粗 体 化 的 特 
殊 效果 ， 它 输出 后 面 跟 有 退 格 键 的 字符 ， 然 后 再 输出 同样 的 字符 。 用 文本 编辑 器 观 
看 它 的 一 个 示例 如 下 : 


了 HINR 全 大 的 ” 百 站 天 丰采 下 机 条 MATTMAHME”H 己 下 忆 * 有 忆 


它 使 单词 “ NAME” 成 为 粗 体 ， 对 每 个 字符 进行 3 次 重 登 输出 . 同样 ， 加 下 划 线 可 
以 通过 输出 下 划 线 、 退 格 键 和 要 加 下 划 线 的 字符 来 完成 。 下 面 的 永 例 是 为 了 给 单词 
file” 加 下划线 添加 子 一 些 符 号 : 


_AHE_ “HA ^HY > 了 He 





注 T: 扰 而 ， 可 以 在 awk 中 完成 这 些 。 


Tree er 一 一 一 一 一 ， 
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有 财 击 除 这 些 打 印 的 “特殊 效果 ”" 是 有 必要 的 , 比如 你 可 能 将 输出 作为 一 个 源 文 件 。 
下 面 的 行 会 删除 用 于 加 相 和 加 下 划 线 的 序列 : 


7 .7 


它 可 以 删除 退 格 符 前 面 的 什 意 字符 以 太 这 个 进 格 符 。 对 十 加 下 划 线 的 情况 ,，“， 匹 
配 下 划 线 ; 对 十 加 粗 的 情况 ， 它 匹配 加 粗 的 字符 。 央 为 它 被 重复 调用 ， 多 次 出 现 的 
重复 序列 被 去 除 ， 每 个 序列 只 保留 一 个 字符 。 注 总 ， 在 Yi 中 通过 按 下 CTRL-Y 和 
CTRL-H 输 入 “* 再 ”。 





一 个 应 用 实例 就 是 去 除 老 一 代 System V_ UNIX 系统 中 由 proff 所 产生 的 三 an 页 中 
的 格式 信息 ( 注 8。 如 果 你 想 用 文本 编辑 器 访问 这 个 格式 化 的 页 面 , 那么 你 会 想 要 
一 个 整洁 的 版 本 【在 许多 方面 、 这 个 问题 与 上 一 章 中 转换 字 处 理 文件 方面 的 问题 
类 个)。 一 个 带 有 格式 的 man 页 将 以 下 面 所 示 的 样 于 保存 到 一 个 文件 中 : 

“19 who wheo111 

[9 人 "HNYHMYHIHM 六 ， 日 站 m 末 贞 [本 MAIIMAIIIMAFHRTR” HR H 甩 "时 蕊 


whe -who TS CD 七 让 SYSEepI? 
号 ^* 开 号 < 上 [后 > HS 用 半 HTAHYTN“ RH HND* DeFDOAHOE^HEAHPAHPSAHSA HSHSTAHI 


whe [- 吉 ] [-b] L-al [-H] [-11 [no [-q [-r] [-s] [tj [=T] 
[-s1 [*HE “Hi AI _ AHe] 

WOD ar 工 

WiG at 工 


吕 “HD“HI EDFPAHE*HE>HES^HS*HSHSCHC HCFCR^HR HR HRI"HI^HIAHIE“HE 
We 人 ar 荆 St 直下 全 人 昌 全 节 ! 号 站 站 生息 ， 七 所 了 作 了 瑟 二 荆 工 五 全 ,二 心 算 二 Te， 
已 忆 让 See 所 斌 me 号 ImCc 吾 CLLIWVILLY CCUTLTEa Onm he ne ,an the 


除了 去 掉 加 粗 的 和 加 下 划 线 的 序列 以 外 ,还 有 产生 换 页 或 各 种 其 他 的 打印 函数 的 转 
兴 序 列 。 在 以 上 格式 化 的 帮助 页 的 顶端 可 以 看 到 序 询 ““^“ 上 9”。 这 个 转 兴 序列 可 以 被 
简单 地 删除 : 


S [9 


再 次 强调 ， 在 中 中 可 以 通过 按 下 CTRL-V 并 郑 后 按 下 ESC 键 来 输入 ESC 宇 符 。 数 
字 9 旺 字面 值 。 这 里 还 有 形成 堪 边 办 和 缩 进 的 前 导 空 格 。 进 一 步 检 查 ， 在 标题 【 例 


注 各 : 过 去 ， 计 多 System YY UNIX 厂商 只 提供 预先 格式 化 的 帮助 页 。 这 散 苑 评 Ia 命令 快 
可 地 显示 信息 , 而 不 是 持 式 化 它 ， 但 是 帮助 页 上 献 少 tro 生 沽 使 得 很 难 修 复 文 件 错误 。 
阐 运 的 是 ， 廊 多 数 现 在 的 UNIX 系统 的 厂商 都 提供 了 杂 考 手册 的 源 代 码 ， 
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如 “NAME ) 前 馆 有 - 些 前 导 空 格 而 每 行 前 而 有 “个 制 表 符 。 而 及, 有 一 些 制 表 符 
意 想不到 地 出 现在 文本 中 ， 这 与 aroff 如 何 优化 CRT 屏幕 上 的 显示 有 关 。 


为 了 取消 堪 边界 和 不 想 奖 的 制 表 符 ， 我 们 在 上 面 的 两 个 命令 后 添加 两 个 命令 : 


+ segmaq -- 对 nzrcfE 格式 化 的 帮 且 贞 进行 芭 二 式 化 
各. “Hg 

吕 [ 遇 /7 

Se [[ 1a]* 29 

名 /7/g 


第 三 个 命令 寻找 行 开 始 处 的 任意 数 日 的 制 表 符 或 空格 ( 制 袁 位 用 “,” 表示 , 空格 用 
“ 台 ” 表示) 。 最 后 “个 命令 寻找 制 表 符 并 用 一 个 空格 寂 代 它 。 在 样 林 man 大助 页 输 
出 上 运行 这 个 勒 本 会 产生 下 面 的 文件 : 

111 wher]ly) 

MaMTE 

Who - We is on che System3 

SYHNDOPSIS 

who [al Lp [3] [-H LI- 1-P] [-al [-zl [-sl] [-t) [-T] 

[~ [Eee 

whan 人 工 

wheo am 1 

DESCRIETITOM 

He San 11St he USeI' S Tame， 七 tminal Tine 1cg3n 臣 ime， 

呈 lapsead Lime since accivty bceuUTtrEA Dr the ]ine，anaqd khe 


这 个 脚本 不 清除 由 分 页 引起 的 不 必要 的 空 行 。 我 们 在 下 一 意 会 看 到 这 种 处 理 ,， 这 要 
求 多 行 操 作 。 


转换 


转换 命令 是 特有 的 ， 厅 仅 因 为 它 在 所 有 的 sed 命令 中 拥有 最 小 的 助 记 符 。 这 个 命令 
按 位 置 将 字符 串 abc 中 的 每 个 字符 ， 都 转换 成 字符 中 六 z 中 的 等 价 字符 〈 注 9)。 它 
的 语法 如 下 : 


注 由 : 这 个 命令 在 UNIX t 命 令 之 后 被 模式 化 ,， 梓 用 于 桂 换 字 疹 。 这 本 每 是 一 修 非 常用 后 
命令. 条 疗 你 的 本 电文 档 的 详细 资料 无疑， 如 果 寺 还 浊 有 和 攻 司 用 【已 被 tett 命 对 使 
用 。 和 参见 第 六 事 “ 商 级 Sed 命令 "。)， 那 么 sed 的 y 命 今 辑 庶 该 命名 为 十。 





14 第 五 章 





[aceressl1y7 apcyXxYyzr 


替换 根据 字符 的 位 置 来 进行 。 因 此 ， 它 投 有 “ 词 ” 的 概 您 。 这 样 ， 在读 行 上 的 任何 
地 方 的 “a” 都 被 换 成 了 “x”， 而 不 管 它 后 面 是 否 跟 有“b"。 这 个 命令 的 .个 可 能 的 
用 处 是 用 大 写字 母 蔡 换 对 应 的 小 写字 母 ， 


笠 7aCSeTEotL3KLIDCODP 可 ISTLUWVYXYZ 7 ERCDPEFGHIJELMHNOPEORSTUVwWYZ 


这 个 命令 影响 理 个 模式 空间 的 所 有 内 容 . 如 果 想 在 输 和 人行 上 转换 单个 单词 ,那么 通 
过 使 用 保持 空间 可 以 完成 。 参 见 第 六 章 有 关 如 何 使 用 保持 空间 的 详细 介绍 (大致 过 
程 是 : 输出 要 更 改 单 词 的 那 一 行 之 前 的 所 有 行 ， 删 除 这 些 行 ， 将 单词 后 面 的 行 复制 
到 保持 空间 ， 转 换 这 个 单词 ， 然 后 将 保持 空间 的 内 容 扎 加 到 模式 空间 ) 。 


打印 


打印 命令 〈P)} 输出 模式 空间 的 内 容 。 它 既 不 清除 模式 空间 也 不 改变 脚本 中 的 控制 
流 。 然而， 它 频繁 地 击 在 改变 流 控 制 的 命令 (&. Kb) 之 前 ， 除非 抑制 ( -=) 黑 
认 的 输出 , 个 则 打印 命令 将 输出 行 的 重复 复制 。 当 抑制 软 认 的 输出 或 者 当 通过 程序 
的 流 控制 来 避免 到 达 脚 本 的 底部 时 ， 可 能 会 使 用 它 。 


下 面 我 们 看 一 个 如 何 使 用 打印 命令 来 进行 再 试 的 脚本 .。 它 用 于 显示 在 发 生 任 意 改变 
之 前 行 是 什么 样 的 。 


#n 在 行 改 变 世 前 和 之 后 打印 行 
AT 

刁 

虽 ” Y/ 厅 

号 ,站 YE 

】 


注意 ， 打 印 标 老 被 提供 给 替换 命令 。 替换 命 令 的 打印 标志 不 同 于 打印 命令 ， 因 为 它 
是 以 成 功 的 替换 为 条 件 的 ， 


『 诺 是 运行 上 面 靶 本 的 一 个 例子 : 


S Bed -上 人 由 .debug cho5 
-hh “Temnt” 

已 避 rmmm 它 也 世 

-有 FL “SU 上 上 工 蕊 以 人 上 上 工 口 忆 L 


基本 sed 命令 了 


写 口 D5 七 斌 研 IT 

.站 “De]esey 

站 总 1 ee 所 

,wm “aaPPeTrnd。， JPSert an Chamnge， 
上 有 DB 人 mn 本 ImESCLt nmQ Cnang 可 己 

,1 “ 工 工 呈 

了 St 


每 个 受 影响 的 行 都 被 打印 了 呐 次 。 


我 们 将 在 下 一 章 看 到 打印 命令 的 其 他 示例 。 在 下 一 章 还 会 看 到 多 行 打印 命令 (P)。 


几 一 E3 
打印 行 号 
跟 在 地 址 后 面 的 等 号 (=) 打印 被 匹配 的 行 的 行 号 。 除 非 抑 制 行 的 自动 输出 , 行 巡 和 
行 本 向 将 被 打印 。 它 的 请 法 如 下 : 


[了 me-aeadress] = 
这 个 命令 不 能 对 一 个 范围 内 的 行进 行 操作 。 
程序 员 也 许 用 该 命令 打印 源 文件 中 的 某 些 行 。 例 如 , 下 面 的 脚本 打印 行 号 和 行 本 身 ， 
这 些 行 都 包含 后 面 限 有 字符 串 “if” 的 制 表 符 。 脚 本 如 下 : 

#n 打印 有 具 和 有 于 诸 句 的 行 号 和 1 行 

和 守 E7T 

p 

】 
广 意 ,名 抑 制 行 的 默认 和 输出。 现在, 我们 看 看 它 如 何在 一 个 样本 程序 random-c 上 
工作 的 : 


上 呈 司 一 一 间作 可 司 妇 工 -= 工 二 m 人 em .号 


工 和 2 
守 E Iran tyepe == TYPE D ) 
234 
让 (rand_ type == TYPE_0 )}Sstare [| -1 ] = rand_ typei 
236 
iftm < EREAK 1 ) 
252 


IE < BREBRK 3 ) 1 
了 7 了 4 
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j 二 13 村 _EYPE == TYPE_D ) SF5ace 「 -上 ]】 -Ian yy 记 ef 


JITaIC tvwvPe -- TYPE 0D ) star [ -1 ”=- TanQ_ typer 


在 寻找 由 编译 问 报 告 的 问题 时 ， 行 号 是 非常 有 用 的 ， 编 详 器 通常 列 出 行 蕊 。 


下 一 步 
下 - 步 (next) 命令 (na) 输出 模式 空间 的 内 容 ， 然后 读 取 输入 的 下 - 行 , 而 不 用 返 
回 到 层林 的 顶端 。 它 的 语法 如 下 : 


[adadress]a 


next 命 令 疏 变 了 正常 的 滞 控 制 ， 直到 到 达 脚 本 的 底部 才 会 输出 模式 空间 的 内 容 , 它 
监 是 在 读 人 新 行 志 后 从 脚本 的 顶端 开始 。 实 际 土 ， next 命令 导致 输入 的 下 --- 行 取代 
模式 空间 中 的 当前 行 。 脚 本 中 的 后 续 命 令 应 用 于 替换 后 的 行 ， 而 不 是 当前 行 。 如 果 
没有 抑制 默认 输出 ， 那 么 在 替换 发 生 之 前 会 打印 当前 行 ， 


下 面 我 们 来 看 next 命令 的 示例 ,在 这 个 例子 中 ， 当 空 行 跟随 .个 匹配 模式 的 行 时 ， 
则 删除 该 空 行 。 在 这 种 情况 中 ， 假 设 作者 已 色 在 池 标 题 宏 (,H1) 之 后 插 人 -- 个 空 
行 。 我 们 想 要 出 除 这 个 空 行 而 不 是 删除 文件 电 所 有 的 空 行 。 下 面 是 示例 文件 ; 


-HL "“Dm 总 PE” 


Napoaieon，Pointiog 避 co he PYyram2Gs，3aida ko hig troops: 
"Soldiets，Eorty Centuries have their eyes upon you， 


下 面 的 脚本 删除 其 中 的 空 行 
vvH1AT 
sa 
} 


可 以 按 下 面 的 方式 阅读 这 个 脚本 :“ 匹 配 任 何以 字符 串 “.HI ”开始 的 行 , 然后 打印 
那 一 行 并 读 人 下 - 行 . 如 果 那 … 行 为 空 , 则 删除 它 *。 大 括号 用 于 在 同一 个 地 址 应 用 
多 个 命令 .。 


在 较 长 的 脚本 中 , 几 须 记 住 出 现在 next 命 令 之 前 的 命令 不 会 应 用 十 新 的 输 和 信行 , 而 
且 出 现在 后 面 的 命令 不 应 用 于 旧 的 输 人 行 。 
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六 章 将 介绍 有 关于 命 令 的 其 他 示例 ， 以 及 读 命 令 的 多 行 的 形式 。 


读 和 写 文件 


读 4rj 和 写 (w) 命令 用 于 直接 处 理 文件 。 这 两 个 命令 都 只 有 :个 参数 , 即 文件 名 。 
语法 如 下 : 


[了 ne-aacaresslr 5I7e 
[aacGress] 厂 工 1 忆 


读 命令 将 由 六 ke 指定 的 文件 位 定 的 行 之 后 的 内 容 恋人 忌 式 空间 . 它 不 能 对 一 个 范围 
内 的 行进 行 操作 。 写 命令 将 模式 空间 的 内 容 忆 到 ,Aie 中 。 


在 命令 和 文件 名 之 间 必 须 有 - ' 个 空格 (空格 后 到 换行 符 前 的 每 个 字符 都 被 当做 文件 
名 . 因此 , 前 导 的 和 同人 的 空格 也 是 文件 名 的 -部 分 }。 如 果 文 件 不 存在 ， 读 命令 也 
不 会 报错 。 如 果 写 命令 中 指定 的 文件 不 存在 , 将 创建 一 个 文件 ; 如 果 文 件 已 经 存在 ， 
那么 写 命令 将 在 每 次 调用 脚本 时 改写 它 .如果 .个 脚 丰 中 有 多 个 指令 写 到 癌 .个 文 
件 虫 ,那么 每 个 写 命令 都 将 内 容 追 加 到 这 个 文件 中 。 而 且 ， 每 个 脚本 最 多 只 能 打开 
10 个 文件 。 


读 命令 对 于 将 一 个 文件 的 内 容 糙 人 到 另 - -个 文件 的 特定 位 置 是 很 有 用 的 。 例 如 , 候 
设 有 一 组 文件 并 且 每 个 文件 都 应 以 相同 的 一 个 或 两 个 段 蕃 的 语句 结束 。 使 用 sed 脚 
本 可 以 在 必要 时 分 别 单独 对 结束 部 分 进行 维护 ， 例 如 ， 当 将 文件 发 送 到 打印 机 时 : 














sed '3Sr Closing' S | Pr 上 15 


$ 是 指定 文件 最 后 一 行 的 时 址 符号 。 文 件 closing 的 内 容 放 置 在 模式 空间 的 内 容 之 后 
并 且 和 它 “起 输出 。 这 个 示例 没 指 定 路 径 名 ， 人 由 设 文件 和 命令 在 同 - :个 目录 下 。 一 
个 更 通用 的 命令 应 该 使 用 完整 的 路 径 名 。 


你 也 许 想 要 铀 试 读 命 令 的 儿 个 方面 。 我 们 看 看 下 面 的 命令 : 


mipary 一 SAY comPanyr .Tist 


也 就 是 , 当 sed 匹 配 以 字符 串 “<Company-tist>" 开始 的 行 时 , 它 将 文件 cortpary,iist 
的 内 容 附加 在 被 虹 配 的 行 的 末 昆 。 后 面 的 命令 不 会 影 员 从 这 个 文件 中 读 下 的 行 。 例 
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如 ， 不 能 对 读 入 到 文件 中 的 会 司 议 表 进行 任何 政变 。 然而， 寻 生 初始 行 的 命令 将 会 
起 作用 。 第 一 个 命令 可 以 跟着 前 - -个 命令 : 


eeDmpany- 1st>yd 


删除 初始 行 。 所 以 如 果 输 入 文件 如 下 所 示 : 


FT Se>rVwiee，CSontact any cf fthe EolLowzmnS companies : 
<DCOmpany 一 】 工 汪 苇 > 
下 有 amK UL 


运行 这 个 包含 两 行 的 脚本 会 产生 : 


Fer Sexrv1ce，Contaet amny of the Eo1Lowimne companieS : 
吾 工 : 已 避 
May 亿 we 斌 工 
TU cEe 

Thank Ycu ， 


使 用 -" 选项 或 名 脚本 语 半 可 以 取 请 自动 输出 ， 阻 上 模式 空间 的 初始 行 被 输出 ， 但 
是 读 命令 的 结果 仍然 转 到 标准 输出 。 


现在 我 们 来 看 号 命令 的 例子 .其 中 之 一 是 从 -个 文件 中 所 妈 信 息 并 将 它 坡 署 在 自己 
的 文件 中 。 例 如, 假设 有 一 个 按 字母 顺序 列 出 的 销售 人 员 名 字 的 文件 。 对 于 每 个 大， 
这 个 清单 都 指明 了 他 被 分 配 到 4 个 这 域 中 的 哪个 区 域 。 下 面 是 一 个 示例 : 


是 各 有 YI 富 。 再 所 DZ 二 挟 七 七 已 NGCTLheaest 


瑟瑟 TI 号 。 下 科 包 曲 站 昌 cutD 
Dennis，Jim Midwest 
怠 arVeY， 了 了 11L- JI 局 工 七 必 亿 志 吕 七 
JeEEETIeS， Jane 窗台 十 

Mi 吉 屿 斌 DT， SY-wIS Midwest 
3SommeSs， meom 3ou+th 


当然 ,为 包含 7 行 的 文件 编写 一 个 脚本 是 很 可 笑 的 。 然 而 这 样 一 个 脚本 能 够 处 理 任 
意 多 的 可 以 放 在 一 起 的 名 字 ， 而 且 是 可 以 时 用 的 。 


如 果 我 们 想 要 的 是 提 到 特定 区 域 的 名 字 ,， 可 以 很 容易 地 使 用 grep 来 完成 。 使 用 sed 
的 优点 是 我 们 可 以 -- 步 就 将 文件 分 成 4 个 独立 的 冯 件 。 下 而 的 4 行 脚本 可 以 做 这 项 
工作 : 


林口 世 上 有 所 电站 宙 ， 人 天 总 可 CT -了 TI 忆 工 七 且 宇 意 己 七 
7SBuUtHS AT Te 后 LOn .SBuUkh 
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MGwe5tsewr re 可 ion.TiCmweSst 
站 候车 上 站 基站 TY 全 SL 


所 有 被 分 配 人 到 Northeast 邮 区 的 销售 员 的 名 字 , 都 护 放 置 在 文件 regionnerthieast 中 。 


与 命 令 在 被 调用 时 就 写 出 礼 式 空 间 的 内 容 , 而 在 是 等 到 到 和 友 脚 本 的 钻 昆 时 才 进 行 握 
操作 。 在 上 一 个 例子 中 , 我 们 也 许 想 在 写 到 文件 之 前 副 除 地 区 的 名 字 . 对 十 每 .种 
情况 ， 我 们 都 可 以 像 对 Northeast 地 区 那样 来 处 理 : 

CT ea 呈 FS 


0 
窗 工 生 可 Bt.TortHE3SE 


赤 换 命令 瑟 配 与 地 址 相同 的 模 芭 并 删除 它 。 写 命令 有 许多 不 同 的 应 用 , 例如 ， 训 以 
在 脚本 中 使 用 它 来 生成 同一 源 文 件 的 几 个 自 定义 版 本 。 


检查 参考 页 

像 许 多 程序 - 赃 ，scd 脚本 通常 -开始 都 很 小 ， 并 电 写 和 读 都 很 简单 。 在 测试 脚本 
时 , 可 能 会 发 现 不 适用 于 一 般 规则 的 特殊 情况 。 为 了 解雇 这 些 问 题 . 可 以 给 蓝本 增 
加 行 , 生成 更 长 、 更 复杂 并 旧 更 完整 的 和 脚本。 虽然 花费 在 细 化 丢 本 上 的 时 间 抵 销 了 
不 用 手动 编辑 而 节省 下 来 的 时 间 , 但 至 少 在 这 有 眉 时 间 内 ， 你 的 头脑 被 自己 的 这 个 似 
平 高 悉 的 想法 占据 :“ 看 ! 计算 机 完成 的 


在 准备 命令 页 的 格式 化 复制 中 , 我 们 会 遇 到 这 样 的 问题 ， 读 命令 页 是 作者 作为 祥 本 ， 
文件 健 人 的 ， 它 没有 包含 任何 格式 化 信息 。 虽 然 这 个 文件 没有 格式 化 代码 , 但 使 用 
了 一 禾 的 标题 来 标识 命令 页 的 格式 。 示 例文 件 如 下 所 示 ; 
AME : DERP1DSS -~ 己 ] 串 S 折 5 己 加 有 十 员 垃 台所 
STMNTEX 1 
VCIS DBc] se 由 辣 所 St] 
DBFTDT * 芋 包扎 SC 


USAGE: 


faesce -Peimter [ 襄 训 akabase (file qqescriPtaT 
DESC: 


= = or mpheere 一 一 一 一 -- 
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Pacloselii closes 昌 王 1]e When 可 ivecl LS 人 ACEbaSe ETIe esCEIDbEOY ， 
YoOum Benalnmn 可 wzrzzes to thaL 12 wjlt be Comp1eated before Fhe 

于 人 18 1ogea。L1 co you upaqdace 1orke are zerCwveo， 

于 如 号 SC beeemes IOwv3LiO- 


已 Lh 全 TUE 全 PH 昌 r 和 DCC 己 丰 全 习 Le when YDU Call DBCc]Ccser) ，Their UPaace 
JacKS am 人 enalng WIIEeSs are Tot Changea， 


玖 8 二 全 七] 总 七 上 交 全 T 二 S 站 马 本 全 革 二 UL 于 1 全 己 B Chere 主 当 1 是 SIC 
六 下 辣 忆 号 中 TUT 吕 折 马 袜 证 站 站 站 所 所 内 于 总 . 


DBeLDSet) 18 anmalaogecuUas [Do LE YLOSPE Statement in BASTIC . 


RETURMNS : 
全 heIEe 了 与 了 I 口 工 亿 攻 ET VBa]W 扣 


让 下 计 十 直 尖 全 几 有 是 业 册 刘 定 册 汪 实业 更 尖 党 和 者 二 是 丙 坎 下 去 坦 二 二 二 计 吉 蔷 去 去 责 沿 走 语 疝 资 划 二 二 是 则 南昌 昌 是 为 业 名 雪 二 南 羡 测 本 到 二 其 


现在 的 任务 是 使 用 我 们 开发 的 引用 首部 宕 为 油光 打印 机 格式 化 以 上 文档 。 因 为 这 些 
命令 页 也 许 大 约 有 40 页, 所 以 看 完 它们 并 手动 语 加 代码 完全 是 个 苦 差 使 。 而 卫 , 因 
为 有 这 人 么 多 页 ， 即 使 作者 在 输入 它们 一 般 都 能 保持 … 殖 性 , 但 在 命令 和 命令 之 间 也 
会 有 很 多 的 差别 ， 这 就 需要 检查 许多 遍 ， 


我 们 将 检查 构建 这 个 sed 脚本 的 过 程 。 在 某 种 意义 上 ， 就 是 仔细 查看 示例 输 和 人 文件 
的 每 一 行 并 决定 是 否 在 那 - 行 上 进行 编辑 。 然后 查看 文件 的 其 他 部 分 来 查找 业 似 的 
出 现 情况 .我 们 要 尽 景 找到 能 标记 这 些 需 要 编辑 的 行 或 行 范 围 的 特殊 模式 。 


例如 , 通过 查看 第 一 行 , 我 们 知道 需要 排除 包含 分 隔 每 个 命令 的 一 排 星 导 。 我 们 指 
定 以 星 号 开始 和 结束 的 任意 行 的 地 址 , 并 寻找 两 个 星 号 之 间 的 零 个 或 多 个 星 号 , 正 
局 表达 式 将 星 号 用 作 字 面值 和 元 字符 。 


于 人 从 有 所 二 二 业 家 放 计 


这 个 命令 删除 在 文件 中 任何 地 方 出 现 的 整个 星 号 行 。 我 们 可 以 看 到 用 空 行 分 隔 庚 落 ， 
但 是 用 段落 宏 肥 代 每 个 空 行 会 引起 其 他 问题 。 在 许多 情况 下 , 因为 宕 中 已 经 提供 了 
空格 , 所 以 可 以 删除 空 行 。 在 这 种 情况 下 ,我 们 可 以 在 全 局 基础 上 推迟 删除 或 取代 
空 行 直到 完成 了 对 特殊 情况 的 处 理 。 例 如 ， 一 些 空 行 分 隔 了 带 标记 的 节 ， 我 们 可 以 
使 用 它们 定 六 一 个 行 范 围 的 结束 位 置 . 热 后 ,将 脚本 的 最 后 一 个 操作 设计 为 删除 不 
想 要 的 空 行 。 


制 表 符 是 一 个 业 似 的 问题 。 制 表 符 用 于 缩 进 语 站 行 ， 在 某 些 情 况 下 位 于 标签 〈 如 


基本 sed 命令 2 





NAME) 的 冒号 志 后 。 我们 的 第 “个 想 沾 是 用 8 个 空格 来 取代 制 才 符 从 而 制 除 所 有 
的 制 表 符 ,但 是 有 -- 些 我 们 想 要 保留 的 制 表 符 ， 俩 如 语法 行 中 的 那些 。 所 以 我 们 只 
删除 畦 殊 情 况 王 的 制 丧 符 ， 包 括 在 行 的 开始 处 的 制 形 符 和 跟 在 冒号 后 面 的 制 表 符 。 


SI 
1 


我 们 遇 到 的 下 一 行 中 包含 有 命令 的 名 字 和 个 撒 述 。 


MaME : DBC1OSE - 它 1 记 SeS 忌口 atLaDase 
我 们 需要 用 宏 .Rh 0 取代 它 。 它 的 诸 法 为 : 
-RhDO “conmanen “aeseriPpticon” 


我 们 在 行 的 开始 处 插入 这 个 安 ， 删 除 连 字符 并 片 用 引号 包 几 蜜 数 。 


NMRES 1 
SS .RhD 
日 一 
S7SA 
] 


下 面 我 们 超前 ` 些 ， 来 看 看 脚本 将 这 些 示例 进行 什么 操作 : 


-Ri 0 "DBC] 站 Se” “1GS 所 外 总 局 站 七 忆 世 总 当 已 " 


我 们 检查 的 下 一 部 分 以 “SYNTAX” 开 始 , 这 里 要 做 的 是 播 人 ,Rh 宏和 一 些 用 于 缩 
进 , 字体 更 改 以 及 非 填 充 和 非 调整 的 troff 请 求 ( 缩 进 是 需要 的 , 因为 我 们 在 行 的 开 
始 处 删除 了 制 表 位 )。 这些 请 求 必 须 在 语法 行 的 前 后 加 入 ， 将 相应 的 功能 打开 和 关 
闲 。 为 了 化 到 这 点， 我 们 定义 一 个 在 两 个 模式 之 问 的 行 范围 地 址 ,这 商 个 模式 是 
标签 和 鱼 行 。 然 后 ， 我 们 使 用 更 改 命令 ， 用 一 系列 格式 化 请 求 取代 标签 和 空 行 。 


SSTYNTRST AS 
“SSYMNTRAX: ICA 

-HH Symtaxy 

+ mn +5ns 

-E _ BY 

.En 

.了 总 
AAA 

-In -5ny 

-tr RS 
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民工 
, 己 人 上 


在 更 改 命令 乙 后 ,每 个 输入 行 都 以 一 个 区 斜 杠 结束 ， 最 后 一 行 除外 .。 更 改 命令 的 一 
个 副作用 是 当前 行 从 模式 空间 中 被 出 除了 。 


玉 面 是 USAGE 部 分 ,让 :个 或 多 个 变量 的 机 许 描 述 组 成 。 在 这 里 我 们 将 每 个 描述 
格式 化 成 具有 进 斜体 字 慰 答 的 段落 。 首先 ， 输 山 -Rh 宏 ， 然 后 我 们 搜索 由 制 表 符 
和 连 字 符 分 赂 成 两 个 部 分 的 行 。 采 用 反射 杆 一 圆 括号 的 形式 保存 每 个 部 分 ， 并且 在 
赫 换 期 癌 回 阅 。 
7USRAGE: 7 5 
TUTSAGET Ce 
,Ri 了 可 吕 日 可 已 
并 
2 
了 


这 昆 一 个 展示 正则 表达 式 的 能 力 的 很 好 的 示例 。 再 次, 让 我 们 提前 预览 示例 的 输 
出 。 
,RH 上 Qt 所 


. 工 P “于 工 二 司 人 SC 上 上 有 二 三 
Peinkber 巧 D Qatabase file aescripEor - 


我 们 过 到 的 下 - - 郎 分 是 描述 . 这 一 部 分 使 用 的 空 行 来 分 隔 疏 落 。 在 指定 这 一 部 分 的 
地 址 时 ， 我 们 使 用 下 一 个 标签 “RETURNS 。 





7DESC: 7 7RETOURNS{ 
7DESC: TI 

, 工 己 
SPDESR :* 由 .Rh DeESCTILDtILOon 7 
号 六 ”让 了 - 工 王 7 

】 


我 们 要 做 的 第 一 件 事 是 插 人 段落 宏 , 因 为 前 面 的 USAGE 部 分 由 缩 进 的 般 落 组 成 (在 
USAGE 部 分 我 们 可 能 也 使 用 了 -mm 包 中 的 变量 列表 宏 ， 假 如 这 样 的 话 ， 我 们 应 在 
这 里 插入 .LE)。 这 只 能 做 一 次 ， 这 就 是 它 成 为 “DESC” 标 传 的 关键 的 原因 。 然 后 
我 们 用 .Rh 宏 赫 换 标 签 “DESC”， 并 在 这 一 部 分 用 段落 宏 取代 所 有 的 空 行 。 


当 我 们 对 样本 文件 测试 sed 脚本 的 这 一 部 分 时 ， 它 不 起 作用 ， 这 是 因为 在 DESC 标 


remain 
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签 后 面 有 一 个 空格 ,我 们 修 政 正则 表达 式 来 寻找 标签 后 面 的 零 个 或 多 个 空格 。 虽然 
这 对 于 样本 文件 是 可 行 的 , 了 但 古 当 我 们 使 用 比较 大 的 样本 时 村 有 其 他 问题 . 作者 对 
标签 “DESC” 的 使 用 不 - 致 。 通常, 它 自己 占据 - - 行 ; 有 时 ， 它 位 于 第 二 段 的 起 始 
处 ,所 以 我 们 必须 增加 另外 的 模式 来 处 理 这 种 情况 , 用 于 搜索 后 面 跟 有 一 个 空格 和 
一 个 或 多 个 字符 的 标签 





SiDESC: *S Rn DescripLionr 
SADESC: .17 .REF Descriptiony 


在 第 二 种 情况 下 ， 引 用 首部 央 被 输出 并 且 后 面 眼 有 一 个 换行 符 。 





下 一 部 分 《标记 的 “RETURNS” ) 采用 与 SYNTAXK 部 分 相同 的 方式 处 理 。 


我 们 更 改 了 很 少 的 内 容 ， 用 “Return Value” 取 代 标 答 “RETURNS*， 并 且 相 应 地 
增加 以 下 芒 换 : 


号 /TSIE BO 工作 EDIT VaLIUGYS + MDDe .7 


我 们 做 的 最 后 一 件 事 是 删除 剩 下 的 空 行 。 


2 


我 们 的 脚本 被 插 和 人 到 一 个 文件 中 ,文件 命 名 为 refged。 下 面 是 完整 的 脚本 : 


# refseqd -给 营 郑 页 添加 格式 化 编码 


| 
了 
了 了 
YAME: 7 T 
sr.Rh TD "7 
SA 
号 定 


】 
VSYNTRAX :SS 1{ 
7SYMNTRXY Cn 
.Rh 号 yn 七 aX 
.in +SmY 
.Et BY 
,人 IE 
-了 己 
ee 
,了 Sm 
.有 RY 
. 芋 工 s 
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.可 卫 

1 

了 器 呈 人 定 
“SG 世 

- 芒 h LISD 宫 所 
时 


1 
】 
zDBSC 2 RETURNS 1; 
郊 上 号 性 ， 工 
.上 上 P 
RS RAY PescriPtiIon 
号 ESC AR DeSCt3ELiaIn 
7 


TDPY 
】} 
7 了 RETURNS YI Sr 1 
7RETURNST en 
-RH “有 EULED YaLUE” 
SATHEeT 扣 于 SS mnO =“eturn VBaLLev xcne。r 
上 
| 


正 如 我 们 已 经 说 明 的 那样 , 不 应 该 让 sed 改 写 原 始 文件 . 最 好 是 将 sed 的 输出 重 定 向 
到 妃 一 个 文件 或 使 它 转 到 屏幕 上 .。 如 果 sed 脚 本 不 能 正确 地 工作 . 那么 你 会 发 现 , 更 
改 妓 本 并 在 原始 文件 上 重新 运行 它 , 比 编写 一 个 新 的 脚本 来 纠正 上 一 -次 运行 导数 的 
问题 要 容易 。 


呈 站 相 上 工 各 于 号 牛 王 工 于 琴 皮 六 各 
-Rh 日 “DBE1ase" “"C1LoseS 昌 四 aabase" 
,Rh SSYTmEaaX 
-In +5Dm 
-fTE 台 
.上 E 
.了 已 
VOL 忆 1 
DRFIDR * 于 中 SC: 
.im -Sn 
.上 FE 及 
.人 
.日 下 
.Rh USaG 扬 
-.IP "IETQeSsevER” 151 
PCIHRtSTr 二 扬 @atrabase 夺 i]e QescriRpcor . 
-| 已 
.Rh 了 BCTILRLIiL CD 
DBclLoser)》 Clo5ses 8 和 zle When 如 Lven iTS aapaSe Tile descxiBEor、 
TYBHE ROW WEILeS 土台 上 二 于 ie 了 1 De Completea beEore the 
于 1 也 5 宝 LOSeO. 上 1 Of Your uprate Locks are reincovea ， 
* 品名 SC _ becomes :mvaliaog . 


we 一 -一 
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| 
名 HE 工 是 呈 刁 二 生 丰 站 十 中 王 革 站 二 所 本 WE 匡 Y 吕 UL 己 全 站 呈 C1 口 S 有 1] .TheiT DDaaa 七 吕 
1o9eks anq PenGLng WwWTjites are not changead . 
-工人 
JOY 全 本 二 呈 4 用 富 莹 人 全 一 间 世 晤 荆 auTHL 三 1 已 忆 占 he 人 二 3 1 HPSTR 
下 GeSsC masLt Speclity an npen fite. 





-也 

也有 避 ] 总 全 1) 了 呈 电 站 DGUS 二 局 二 让 全 对 DOSE ESL 和 ermert in BaSIC 
,下 

-及 HR “上 全 配 JET waLUS 

one . 


退出 命令 (d) 会 使 sed 停 止 读 取 新 的 输入 行 〔【 并 停止 将 它们 发 送 到 输出 )》。 它 的 语 
法 为 : 


[imne-acdresslwu 


它 只 适用 于 单行 的 地 址 。 一旦 找到 和 address 瑟 配 的 行 ， 那 么 脚本 就 结束 【 广 10)。 
例如 ， 下 面 一 行 命令 使 用 退出 命令 从 文件 中 打印 前 100 行 : 


SS Bad 100” 七 与 B 蕊 


它 打印 每 - ' 行 ,直到 它 到 达 行 100 并 且 退 出 ， 在 这 点 上 ， 这 个 命令 的 功能 与 UNIX 
head 命令 类 人 疏 。 


qdm 让 的 男 一 个 可 能 的 用 法 是 在 从 文件 中 多 取 了 想 要 的 内 容 后 退出 脚本 . 例如 , 在 类 
似 呈 tmac【〈 在 第 四 章 “编写 sed 脚本 ”中 介绍 ) 的 应 用 中 ， 在 sed 已 经 找到 它 寻 找 
的 东西 之 后 继续 扫描 庭 大 的 文件 是 相当 低 效 的 。 


” 国 此 ， 我 们 可 以 按照 下 面 的 方式 在 getmae shell 脚本 中 修订 这 个 sed 脚本 : 


Seq -~J ” 
AASmac yn AS 





运 10: 你 需要 小 心 ， 在 将 编辑 操作 写 回 到 原 妊 文件 的 任何 程序 中 不 要 使 用 下 命令 ， 在 执行 可 
命令 之 后 , 不 会 再 产生 输出 。 在 想 要 篇 辑 文 针 的 前 一 部 分 并 保留 币 余 部 分 不 改变 的 
情况 下 ， 不 要 使 用 9 命令。 在 这 种 情况 下 合用 日 是 初学 书 常 犯 的 非常 忘 险 的 糙 误 。 
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间 
0 
“二 于 开工 全 


以 上 的 命令 组 阻 小 了 行 : 
AAS 


被 执行 ， 直 到 sed 找到 了 时 寻 找 的 宏 的 结尾 《这 一 行 本 身 在 第 一 个 宏 定 义 结 束 的 地 
方 终止 靶 本 )。sed 程 序 当 场 进 出 , 并 且 不 肯 继 续 遍 历 文 件 的 剩余 部 分 录 找 其 他 可 能 
的 匹配 。 


因为 这 全 宏 定 区 文件 不 长 , 而 且 胸 本 本 身 也 不 复杂 ， 所 以 从 脚本 节省 的 时 间 可 以 忽 
赂 然而 ， 对 于 非常 庞 大 的 文件 或 者 一 个 复杂 的 、 多 行 脚本 ， 它 们 可 能 只 需要 这 个 
文件 的 很 小 的 一 部 分 ， 这 种 类 型 的 脚本 对 时 间 节 省 意义 重大 。 


如 果 比 较 下 面 的 两 个 shell 脚本 , 就 会 发 现 第 一 个 脚本 比 第 一 个 要 运行 得 更 好 。 下 面 
这 个 简单 的 shell 程序 打印 文件 的 前 10 行 ， 然 后 退出 : 


EeI 荆 L】 忌 
全 让 

全 口 了 11 人 柯 下 1 ] 
总 GD 全 


下 一 个 示例 也 打印 前 10 行 ， 它 采用 打印 命令 并 抑制 默认 的 输出 : 


E@r 荆 :1 忆 
蕊 全 

Se 避 -了 工 ,1 人 PP 工 所 
qeme 


如 果 你 还 没有 这 人 么 做 ,那么 在 进入 下 一 章 高 级 命令 之 前 应 该 使 用 本 章 出 现 的 命令 进 
行 练习 。 





本 章 内 容 : 第 六 章 
e。 多 行 模式 空间 
e 学习 案 例 


。 也 坊 屠 一生 一 
高 级 的 流 控 制 命令 高 级 Sed 命令 


e 加 入 一 个 每 姥 


本 章 中 ， 我 们 介绍 剩 下 的 sed 命令 . 这 些 命令 需要 用 更 大 的 决心 来 擎 担 ， 而 且 从 标 
约 的 文档 中 学 习 比 学 习 任 何 基 本 的 命令 都 困难 . 一旦 你 理解 了 这 里 所 给 出 的 命令 ， 
那么 就 可 以 认为 自己 是 真正 的 sed 的 主 大 了 。 








席 级 命令 分 成 3 个 组 : 


J， 处 理 多 行 模式 空间 {N、D、P)。 
2 采用 保持 空间 来 保存 模式 空间 的 内 容 并 使 它 可 用 于 后 续 的 命令 (H、n.、 心 、8、 


和 ] 。 


3， ”编写 使 用 分 支 和 条件 指令 的 脚本 来 更 焉 控制 流 (:、b、 昌 。 


本 章 的 高 级 脚本 都 做 一 件 共同 的 事 , 那 就 是 它们 改变 了 执行 或 控制 的 访 程 硕 序 。 退 
常 ,一 行 被 读 人 模式 空间 并 旦 用 脚本 中 的 每 个 命令 (一 个 接 一 个 地 ) 应 用 于 那 一 行 。 
当 到 村 脚本 的 底部 时 ， 输 出 这 一 行 并 且 清 变 模 式 空间 。 人 
井 且 控制 被 转移 回 脚本 的 顶端 。 这 是 sed 肚 本 中 王 常 的 控制 谢 。 


本 章 中 的 脚本 由 十 各 种 原因 中 断 或 暂停 了 正常 的 控制 流 。 它 们 也 许 想 阻 毕 脚 本 中 的 
命令 被 技 行 ， 某 些 特定 的 情况 除外 , 或 者 阻止 模式 空间 的 内 容 被 清除 。 更 改 控制 渡 
会 使 用 本 更 加 难以 阅读 和 理解 。 事实 上 , 与 脚本 比 读 德 脚本 更 容易 。 当 你 编写 很 难 
的 郊 本 时 ， 测 试 尼 来 看 看 俞 令 如 何 工 作对 你 会 在 好 处 。 


和 


了 727 
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我 们 建议 你 碘 试 本 章 中 的 脚 杰 ,并且 通过 增加 或 删除 命令 来 理解 对 本 是 如 何 工 作 的 。 
亲自 验证 结果 比 闪 是 简单 地 阅读 能 更 好 地 理 佣 脚 本 。 


一 Be 
多 行 模式 空间 
在 前 面 对 止 则 表达 式 的 讨论 中 , 我 们 强调 模式 匹配 是 面向 行 的 。 像 grep 这 样 的 程序 
尝试 在 单个 输入 行 上 上 引 配 一 个 模式 。 这 就 使 它 很 蕉 匹配 一个 在 一 行 的 结 处 开始 ， 
并 佳 下 “ 行 的 开始 处 结束 的 短语 。 其 他 一 些 模式 只 有 当 在 多 行 上 重复 时 才 有 章 义 。 


sed 能 查看 模式 空间 的 多 个 行 , 这 就 允许 匹配 模式 扩展 到 多 行 上 。 在 本 节 中 ,我们 将 
来 看 一 下 创建 多 行 模式 空间 并 处 理 它 的 内 容 的 命令 。 这 里 的 3 个 多 行 命令 ( 卫 、 卫 、 
了 P) 对 应 于 上 - 章 出 现 的 小 写字 母 的 基本 命令 (fm、d、p)。 例如 ， 肌 除 命令 (D) 是 
删除 命令 (d) 的 多 行 形 式 。 区 别 是 : 和 删除 模 式 空间 的 内 容 ,D 只 删除 多 行 模式 空 
间 的 第 一 行 。 





追加 下 一 行 

多 行 Next (N) 命令 通过 读 取 新 的 输入 行 ， 并 将 它 添加 到 模式 空间 的 现 有 内 容 之 后 
来 创建 多 行 模式 空间 。 模式 空间 最 初 的 内 容 和 新 的 输 和 信行 之 和 用 换行 符 分 隔 。 在 模 
式 空间 中 和 峡 入 的 换行 符 可 以 利用 转 多 序列 “wm” 来 匹配 。 在 多 行 模式 窄 间 中 ，, 元 字 
符 ““^” 亚 配 模 式 空间 中 的 第 一 个 字符 ,而 不 匹配 搞 行 符 后 面 的 字符 。 同 样 ，“$* 只 
匹配 模式 空间 中 最 后 的 换行 符 , 而 不 匹配 任何 和 谍 人 的 换行 符 。 在 执行 next 命 令 之 后 ， 
控制 将 被 传递 给 脚本 中 的 后 续 命 令 。 


Next 命令 与 next 命令 不 同 ，next 输 出 模式 空间 的 内 容 ， 然后 读 育 新 的 输入 行 。hext 
命令 不 创建 多 行 模 式 空间 。 


第 一 人 示例 是 ， 我 们 假设 想 要 将 “Owner and DOperator Guide” 换 成 “Installation 
guide"， 但 是 我 们 发 现 它 出 现在 文件 中 的 两 行 上 ,“Operator” 和 “Guide” 被 分 开 
了 。 


例如 ， 下 面 是 示例 文本 的 几 行 : 


ConSuJLLE Secbion 了 .1 In 七 he Drmer amd Operater 
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全 ULiI 呈 土司 Y 册 罗 民 各 站 1 全 让 国门 忆 丰 不 he 二 引 甩 二 间 T ie 全 
昌 val1]able om Yeur 5yYSs=en . 


下 面 的 脚本 寻找 行 续 嵌 处 的 “Operator”， 读 皮下 一 个 输入 行 ， 然 后 进行 不 换 . 


PT LO 人， | 

本 

Sewmer anQ DPeraStoryneuigoerTInScrallaticn Guiogey 
了 


在 这 个 例 手 中 , 我 们 知道 行 在 哪里 被 拆 分 成 两 行 , 并 且 知 道 在 哪里 指定 嵌 人 的 换行 
符 : 当 这 个 脚本 在 样本 文件 上 运行 时 ， 它 产生 两 行 输 出 , 其 中 的 - 行 合并 了 第 行 
和 第 一 行 , 在 这 里 最 示 就 太 长 了 ,发 生 这 种 人 情况 的 原因 是 堆 换 命令 匹配 了 谋 人 的 换 
行 符 ， 但 是 没有 取代 它 。 可 展 的 是 ， 我 们 不 能 用 使 用 “\n” 在 替换 字符 串 中 揪 和 人 痪 
行 符 。 你 必须 使 用 反 斜 杠 转 义 换行 符 ， 如 下 所 示 : 


SOwrier anG CCperater xneuiae “ImstalLlation Guicey 


这 个 命令 在 “Installation Guide” 之 后 重新 搬入 换行 符 。 匹 配 跟 在 “Guide” 后 面 的 
空格 也 是 有 必要 的 ， 这 样 新 行 喜 不 会 以 空格 开始 。 现 在 ， 我 们 来 显示 输出 : 
Consult Section 3-1 im the Imetallacicon Guiaqe 


DT 旺 曲折 SCT1IBRHjOm 吕 E 上 he 二 晤 有 昌 呈 庆 we 
已 V 忆 JaDLe on Your SYStem。 


记 住 ， 不 一 定 要 替换 换行 符 ， 也 是 如 果 布 赵 换 它 将 会 生成 一 些 很 长 的 行 。 


如 果 “Dwner and Operator Guide” 在 不 同 的 位 置 分 成 多 行 该 如 和 何 ” 你 可 以 修改 下 
则 表达 式 来 寻找 单词 之 问 的 空格 或 换行 符 ， 如 下 所 示 : 

CrwmeTrT 

卫 


SODWmeT *ADABDG xmrODberator wwCGuinerITnStalL1ation Guidey 
] 


其 中 的 星 号 表示 空格 或 换行 符 是 可 选 的 。 但 这 似乎 是 - .项 艰难 的 工作 , 实际 上 有 更 
加 通用 的 方式 . 我 们 还 修改 了 地 址 以 匹配 “Owner”, 即 模式 中 的 第 一 个 单词 而 不 是 
最 后 一 个 .我 们 可 以 将 换行 符 读 和 模式 空间 ,然后 使 用 替换 命令 删除 嵌入 的 换行 符 ， 
无 论 它 在 哪儿 :。 


SCwmer ang Dperatcr Guidey InStSaL1Lstlon GuUiader 


him rr - -一 一- 
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ezDwTIC 
于 
外 IT 


SOWwWTEIT 站 几 可 站 户 灾 上 站 <O 人 uiUR 二 "TSTGD BiIon Buiaenv 

} 
第 一 行 匹配 单独 占据 一 行 的 “Owner and Dperator Caide”( 参阅 示例 后 面 有 其 为 
什么 这 是 必要 的 计 论 )。 如果 此 配 了 字符 串 “Owner” , 则 将 下 - - 行 读 人 模 成 空间 , 并 
且 上 用 空格 取代 和 典 人 的 换行 符 。 然 后 我 们 试 着 匹配 整个 模式 并 且 . 执 行 后 面 版 有 换行 符 
替 换 。 这 个 脚本 将 匹 吧 “Owner and Operator Guide"， 不 管 它 被 分 成 怎样 的 两 
行 。 上面 是 扩展 的 测试 文件 : 

C3nsuU1z- Secticmn 3.1 mn he CSwrmer an 昌 De 工 二 训 工 


Guiae :or 己 descrIiDEIGn 必 EE 《De 七 8 记忆 QTILwee 后 
二 VE 上 ] be OIL YOJT SYELez . 


Tank in The Cemner ana operakcor Guide shippea wzrn ycur SYSstenn ， 


Tewe manualg Bre Frovwiaed 1ncl1uaing he Cemner CQ 
DReTStLor Cuiwoqe an 和 he USEr Gualioe. 


了 T3E OwnEeT aa 中 CPerator CuUiaQe 1 ShipPea with youz SYSEeT- 
在 样本 文件 上 运行 上 面 的 脚本 会 产生 如 下 结果 : 


呈 如 各 一 王 习 6GBCI BUDD] 晶 

ConsulIt 号 人 Crtion 习 .1 in 二 be InSaL1Lation 台 UIOe 
for 引 GescrIPtYD 在 th 人 上 apPe 上 ivVeS 

号 V 电 iTable Dr YCuUE 兰 YSE3SmL， 


LPGK ma “0 全 工 立 St 了 ] 且 FIDon Guide ShiDPpPed wLth YOUT System . 


TWO SDU 忆 JS 站 荆 区 TOVIGEG LRCLUGinG FEPhe 工人 SS 号] 工 呈 Dr GUIOe 
anQ the Usor cuiae . 


The Instalzation Guoige is 8hipmped 好 ith Yeur System 。 


在 这 个 了 邯 本 中 , 有 两 个 匹配 模式 的 替换 命令 似乎 是 多 余 的 。 第 一 个 替换 命令 匹配 在 
一 行 上 找到 模式 的 情况 ,第 二 个 替换 命令 匹配 已 有 两 行 被 读 人 模式 空间 之 后 的 模式 。 
为 什么 第 -个 命令 是 必要 的 ? 我 们 可 以 通过 从 脚本 中 副 除 此 命令 , 然后 同样 在 样 素 
文件 上 运行 它 来 得 到 答案 : 


急 得 避 芭 一 三 己 昌 BCE2 Sat c 
CTSUTt 生 人 ctiom 3,1 二 七 h 全 IIIS1L]1aEion GUILO 


高 级 sed 命 今 四 加 了 3 





二 辣 T 己 包 避 SC 工 工 蔬 世 : 吕 T 已 二 二 全 局 且 昌 马 T TVeS 

ava-]aple on Yur SYSLCm， 

Look im thne TISLBaLLation Guiae 

号 也 让 户 全 昌 wITLH YCULE SSE 

了 TWC madcUBL 疝 已 工 刀 记 TOYILQEd jncluairna Lhe IonSLallation Guiae 
DO the USeT CuiGe 


你 看 出 其 中 有 了 酚 个 问题 了 吗 ? 最 明显 的 问题 是 最 后 一 行 不 打印 。 最 后 一 行 上 配 
“Dwner"， 并且 当 执行 人 时， 有 另外 的 输入 行 被 读 译 ， 所 以 sed 退 出 (立刻 退出 ， 
南 至 没有 输出 这 一 行 )。 为 了 修正 这 个 问题 ， 按 如 于 方式 使 用 Next 命 令 应 该 是 安全 
的 : 


宇 ! 


它 排除 了 对 最 后 : 行 ($) 投行 Next 命 令 。 在 以 上 的 脚本 中 ， 通 过 时 配 最 后 一 行 上 
的 “Dwner and Dperator Guide" ， 我 们 避免 了 臣 配 “Owner” 和 应 用 玖 命令 。 然 
而 ， 如果 单词 “Owner"” 出 现在 最 后 一 行 ， 我 们 会 遇 到 同样 的 问题 , 除非 使 用 “SIN" 
语 波 。 


第 二 个 问题 不 太 明 显 。 它 必须 处 理 出 现在 第 二 段 中 的 “Owner and Operatot Guide”。 
在 输入 的 交 件 中 ， 可 以 发 现 它 自 己 位 于 一 行 : 


Deok im the Ooener and Operator Guiae shipped with Your syatem， 


在 上 面 展示 的 输出 中 ， 跟 在 “shipped with your system” 后 的 空 行 委 失 了 。 原 因 是 
这 一 行 匹 配 “Dwper” 而 峡 将 下 “ 行 〈 空 行 ) 追加 到 横 式 空间 。 替 换 命 令 副 除 嵌 人 
的 换行 符 ， 和 并且 这 个 空 行 受 到 影响 消失 了 (如果 该 行 不 为 空 ， 那 么 换行 符 仍然 被 删 
除 ， 但 是 文本 将 与 “shipped with ycur System ”出 现在 同一 行 )， 最 好 的 解决 方案 
就 是 当 这 个 模式 能 在 一 行 上 匹配 时 避免 读 取 下 一 行 。 这 就 是 第 … 条 指令 尝试 匹配 所 
有 出 现在 一 行 上 的 字符 哩 的 原因 ， 


转 搞 Interleaf 文件 


FrameMaker 和 interleaf 给 出 了 克 YSIWYG { 所 见 即 所 得 ) 技术 发 布 包 。 它 们 两 个 
都 有 能 力 读 取 和 保 让 与 普通 二 进 制 文件 格式 相对 应 的 ASCI 编码 病 式 的 文档 内 容 。 
在 这 个 例子 中 , 我 们 将 Interleaf 文件 转换 成 to 在 : 狱 而 ,同一 类 型 的 脚本 可 以 应 用 
于 将 troff 编码 的 文件 转换 成 Entet[eaf 烙 式 。 这 同样 里 适用 于 FrameMaker。 它 们 两 
个 都 在 文件 中 放置 编码 标签 ， 由 尖 括 号 插 起 来 。 
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在 这 个 例子 中 , 我 们 的 转换 证 明了 更 改 命令 对 多 行 模式 空间 的 影响 。 在 Interleaf 文 
件 中 ,“<para>” 标 记 :个 段落 。 标签 的 前 后 是 空 行 。 请 看 样本 文件 : 

DGLT 忆 > 

THRIiS : 呈 站 Fesc DaragTaph in IEerledf stLyle aSCTI.aAnother 11ne 

in 己 Baragrapt vet anmother . 

<PIGUTFe Begin> 


v.112:11t+11211311-1IL1111110000000000000000006111211111141110000600 
:090010001001000-00010000010000000000000000000000000060000000060 
DOBDT 


<FISUTS 已 m 可 > 
一 中 有 LE 主 > 


MGre 1ines Of 站 exXt to be found acer the 上 -gure。 
These 1ines Steule Brint 


这 个 文件 还 包 人 省 “个 位 图 图 形 , 被 打印 成 一 系列 1 和 0.。 为 了 将 这 个 文件 转换 成 tro 作 
客 ， 我 们 必须 用 宏 (《.LP} 取代 “<para>” 代 码 。 然 而 ,还 要 向 一 些 处 理 ， 因 为 需要 
删除 跟 在 代码 后 面 的 空 行 。 有 几 种 方式 可 以 完成 该 功能 , 但 是 我 们 将 使 用 Next 命 令 
创建 多 行 模式 空间 ， 它 由 “<para>” 和 空 行 组 成 ,然后 使 用 更 改 傅 信用 段落 宏 取代 
模式 空间 的 内 容 。 下 面 是 完成 这 些 工 作 的 丢 本 的 部 分 : 
< 有 二 FS 1 
车 
袜 


加 必 
】 


这 个 地 址 匹配 具有 段落 标 徐 的 行 。Next 命 令 将 下 一 行 (应 该 是 空 行 ) 追加 到 模式 空 
亲 中 。 这 里 使 用 Next 命令 (N) 而 不 是 next 命 令 (a)， 是 因为 我 们 不 想 输 出 模式 空 
闻 的 内 容 。 更改 命 令 改 写 模式 空间 以 前 的 内 容 【 后 面 跟 有 换行 符 的 “<para>”)， 即 
使 在 模式 空间 包含 多 行 的 时 候 。 


在 这 个 转换 脚本 中 ,我们 将 提取 位 图 图 形 数据 ,并 把 它 写 到 -个 独立 的 文件 中 。 在 
它 的 位 置 上 ， 我 们 括 人 标记 文件 中 图 形 的 图 形 宏 。 


< 人 GUIR BeGinz yc<FiIOE En 
W 王 1 可 . 工 只 B] 过 总 芋 
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JeFigure PRna=y inv 
TY 
之 1TSeTrt 下 站 Fe 各 六 各 > 
,下 下 

忆 
了 


这 个 过 程 匹配 “<Figure Begin>” 和 “<Figure End>” 之 间 的 行 ， 并 且 把 它们 写 到 
文件 户 g.inrerleaf 中 。 每 次 指令 被 匹配 时 ,出 除 命令 都 将 被 执行 ， 妊 除 已 经 被 写 到 文 
件 中 的 行 . 当 “<Figure End>” 被 匹配 时 , 将 .对 宏 揪 和信 到 输出 中 图 形 所 在 的 位 置 。 
注音， 后续 的 删除 命令 不 会 影响 插入 命令 的 文本 输出 。 然而 ， 它 从 模式 空间 中 删除 


“<Figure Enhd>”。 


下 面 是 完整 的 脚本 : 


YePara> 1 
NT 
P 
. 工 王 
} 
YeFiIGUHYB 有 eGImr，PF<RIGUIS EnQ> 
旭 主 斌 可 . 工 世 苇 所 工会 总 芋 
4<FIGgULI Pa in 


,PEGY 
< 二 TEL 七 下 1 台 WUTE 站 全 工 所 > 
,隔世 
所 
】 
“上 z 


第 三 个 指令 只 删除 不 必 歼 的 空 行 (注意 , 这 个 指令 可 以 被 认为 是 删除 眼 在 “<para>” 
标签 后 面 的 空 行 ; 但 是 你 并 不 总 是 想 删 除 所 有 的 空 行 , 并 且 我 们 丰 要 狂 示 跨越 多 行 
模式 空间 的 更 改 命令 )。 


在 测试 文件 上 运行 这 个 脚本 产生 的 结果 为 : 


总 日 BL 一 于 坟 晤 局 。 工 mi 七 包工 二 6 本 二 ”七 台 外 七 . 站 卫 上 性 工 工 亿 和 下 

- 工 也 

ThIiS 广 扣 站 七 算 上 古训 站 工本 FaDh m TInEeT1LeatE StyLe SCIT .RnOEHetr 工 荆 ne 
in 忌 ParagTraph .Yet anwbher - 

-此 避 

<LnSeTtL 工 :GUFE Pere> 

下 世 

站 

MPTe TiImneS text Lo be fcouna 电 fter 上 the 上 gure- 

nese 13nes ShoulQ princ。 
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多 行 删除 
聘 除 命令 {14) 了 旺 耶 模式 空间 的 内 容 并 导致 读 人 新 的 输入 行 , 从 而 在 脚本 的 顶端 重新 
使 用 编辑 方法 。 删 除 命令 〈D ) 稍微 有 些 不 同 ; 它 删 除 模 式 空 间 中 直到 第 .个 晓 人 
的 换行 符 的 这 部 分 内 容 。 尼 不 会 导 敏 读 人 新 的 输入 行 , 相反 , 沁 返 辐 到 脚本 的 质 端 ， 
将 这 些 指 令 点 用 于 模式 空间 剩余 的 内 容 . 我 们 可 以 纺 写 一 个 实现 查找 一 系列 空 行 并 
给 出 单个 空 行 的 脚本 ， 以 看 看 它们 之 间 的 区 别 。 让 面 隐语 句 使 用 了 肚 除 命令 (1d): 

将 铬 个 宅 行 减少 和 到- - 行 、 利 腊 忆 命令 的 版 本 

2 宙 

| 


nsTgy7G 
】 


当 遇 到 … 个 空 行 时 ， 下 一 行 就 追加 到 模式 空间 中 。 然 后 成 着 严 配 虹 人 的 换行 符 。 注 
意 定 位 元 字符 “和 本 分 别 上 配 模式 空间 的 开始 处 和 结束 处 下面 是 栅 试 文件 : 





his 1inE -SS folLloweao pw 1 Dank 1 
Thaes Jinc is 于 DLLOwea by 3 blank 1]ines， 


This Line is foOlLowea bw 3 blLark 1ines. 


THLE in js foLLoeea by 1 blLank 1ineec. 


This 1s Cne ea- 
在 副 斌 文件 上 到 行 这 个 脚本 会 产生 下 列 结果 ; 


$ 号 G 了 -人 日 6 了. 了 1 和 HK 七 人 Bt 七 .bbLanmk 
This 1Line js folLowea byv 1 591ank line. 


This 1Ine I5 EolLlowegd by 23 blLank 11ines- 
This ine Is ELLowea by 3 blank ines- 


his ine Is 芋 BL1owea by 4 blank 1ine2s- 
This is the erd. 


当 有 偶数 个 空 行 时 ,所 有 的 空 行 都 会 被 担 除 。 仅 当 有 奇数 个 空 行 时 . 有 一 行 被 保留 
下 来 。 这 是 因为 副 除 命令 清除 的 是 整个 模 虑 空间。 一 旦 通 到 第 个 空 行 , 就读 人 下 
一 行 ， 并 县 两 行 都 被 删除 。 如 果 遇 到 第 三 个 空 行 ， 并 且 下 一 行 不 为 空 ， 那 么 删除 命 
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令 就 不 会 被 执行 ,因此 空 行 被 输出 。 如 果 使 用 多 行 Delete 命 令 (是 耳 不 是 4) ,就 能 
得 到 我 们 想 要 的 结果 : 


号 Be -三 号 已 人 3 .二 1 anK 七 所 BE .区 Lank 
Thz5s 1Ltnc 13 Elloweaq pw 1 Plank 1tmne. 


ThIs JILnC is El]oweq Dr 2 bplank 1ines. 
Th-s ~ine 1i8 followeg9 bw 3 piank lines. 
Th-s Lire 19 Followed by d bank ]ines。 


Ts :15 She er 对 。 


多 行 Delete 命令 完成 工作 的 原因 是 ， 当 遇 到 两 个 空 行 时 ，Detete 命 令 只 副 除 两 个 空 
行 中 的 第 一 个 。 下 -次 凯 历 读 脚 本 时 . 这 个 空 行将 导致 另 一 行 被 读 人 模式 空间 。 如 
果 那 行 不 为 室 ， 那 么 两 行 都 输出 ， 因 此 确保 了 输出 个 空 行 。 换 句 话说 ， 当 模式 空 
间 中 有 两 个 空 行 时 、 只 有 第 - :个 空 行 被 删除 。 当 一 个 空 行 后 面 跟 有 文本 时 , 横 式 空 
间 可 以 正常 输出 。 


多 行 打印 


多 行 打印 (Print) 命令 与 小 写字 母 的 print 命 令 稍 有 不 同 。 该 命令 输出 多 行 模式 空间 
的 第 一 部 分 ， 直 到 第 -个 嵌 人 的 换行 符 为 止 。 在 执行 完 脚 本 的 最 后 一 个 命令 之 后 ， 
模式 空间 的 内 容 自动 输出 (-= 选项 或 句 折 制 这 个 默认 的 动作 )。 因 此 ， 当 默认 的 榆 
出 被 抑制 或 者 脚本 中 的 控制 渡 更 改 , 以 至 不 能 到 达 脚本 的 底部 时 ， 需要 使 用 打印 命 
令 {P 或 p)。Print 命 令 经 常山 现 在 Next 命令 之 后 和 Delete 命令 之 前 。 这 3 个 命令 
能 建立 一 个 输入 /输出 循环 ， 用 来 维护 两 行 的 模式 空间 ， 但 是 一 次 只 输出 一 行 。 这 
个 铂 环 的 目的 是 只 输出 模式 空间 的 第 一 行 , 然后 返回 到 脚本 的 顶端 将 所 有 的 命令 应 
用 于 模式 空间 的 第 二 行 , 役 有 这 个 循环 ， 当 执行 脚本 中 的 最 后 一 个 命令 时 ， 模式 空 
闻 中 的 这 两 行 都 将 被 和 铀 出。 图 6-1 说 明了 采用 Next、Print 和 Deiete 命令 建立 输入 :7 
和 输出 循环 的 整个 脚本 . 创建 多 行 模式 空间 以 匹配 第 ' 行 结尾 处 的 “UNIX” 和 第 二 行 
开始 处 的 “System”, 如 果 发 现 *“UNIX System" 跨 越 两 行 , 那么 我 们 将 它 变 成 <*UNIX 
Operating System"。 建 立 这 个 循环 以 返回 到 肝 本 的 顶端 ， 并 寻找 第 二 行 结 昆 处 的 
“UNIX7。 


一 
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6-1，Next、Print 和 Delete 命令 用 于 建立 一 个 输入 /输出 循环 


Next 命 令 将 一 个 新 的 输入 行 追加 到 模式 空间 的 当前 行 . 在 替换 命令 应 用 于 多 行 模式 
空间 之 后 , 棱 式 空间 的 第 一 部 分 被 Print 命 令 输 出 , 然后 被 Delete 命令 副 除 。 这 意味 
闭 当 前 行 被 输出 并 且 新 的 行 成 为 当前 行 。 Delete 命令 阻 赴 靶 本 到 达 底 部 ,这 将 输出 
两 行 并 清除 槛 式 空间 的 内 容 。Delete 命令 让 我 们 保护 了 模式 空间 的 第 二 部 分 ， 并 将 
控制 转移 到 脚本 的 顶端 , 在 顶端 所 有 的 编辑 命令 都 可 以 被 应 用 于 一 行 。 这 些 命 令 中 
有 一 个 是 Next 命令 ， 它 将 另 一 个 新 行 读 人 卉 式 空间 。 


下 面 的 脚本 实现 了 同样 的 循环 : 


AU 了 其 号 
相 ] 
”AmSYSEermyT 
5 TDPSEatYDnS 至 / 
天 
也 
} 
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赫 换 命令 匹配 “nsSystem”, 并 日 用 “DperatingWmgsystem” 取 代 它 。 保 留 换行 符 是 很 
重要 的 , 否则 模式 空间 中 就 具有 一 行 . 注意 Print 和 Deilete 命 令 的 顺序 。 下 面 是 铀 试 
交 件 : 

再 7 扬 总 工 筷 所 XInP] 扎 司 站 土 上 Fe UISX 

SYSLem 人 Where UNIX 


SYStEIm apPearSs，I Shoula PEe rne UNIX 
怕 PeTatiF 可 SYStem 。 


在 测试 文件 上 运行 这 个 脚本 会 产生 : 
驴 员 丰 全 -于 身 嫩 日 -PTInL 七 号 BE .Rd 
再 人 rr 避 员 站 全 全 XITIIE] 已 六 F 凸 he UNIX 电 PPeracin 
3Y3kem。 人 hhErE UNTIX OPeTaLTang 


呈 WS 和 后 仙 ” 避 站 所 所 二 SS ， 宇 上 ShouUlQ Be 七 he LNI 区 
OPeratinqg Svscem。 


输入 /输出 循 荆 让 我 们 匹配 在 第 二 行 结 吕 处 出 现 的 GUNIX.。 如 果 正 党 输出 两 行 的 模式 
空间 ， 那 么 它 就 会 和 失 。 


如 果 你 还 不 清楚 P 和 了 命令 之 间 的 关系 ,在 下 一 个 例子 中 我 们 会 再 次 提 到 。 你 还 可 
以 通过 删除 上 面 脚本 中 两 个 命令 中 的 其 中 一 个 来 进行 实验 ,或 者 试 试 使 用 它们 对 应 
的 小 写字 母 命令 。 


PE 

学 习 案 例 

由 子 字形 改变 ， Lenny 【我 人 的 职员 ) 在 将 Scribe 文档 转换 成 tro 姓 宏和 包 方 面 遇 到 了 
困难 。 他 遇 到 的 问题 很 有 趣 ， 这 与 他 要 完成 的 征 务 无 关 。 


将 文本 设置 成 粗 体 的 Scribe 约定 是 : 


得 天 1 1PPUE 七 用 呈 守卫 卫 忆 1 避 } 


该 字体 更 改 命令 可 以 戏 人 到 行 中 , 并 且 可 以 从 一 行 开 始 并 在 随后 的 一 行 结束 。 它 在 
一 行 土 也 可 以 出 现 多 次 。 下 面 是 它 的 几 种 不 同 用 法; 





Sat 七 与 B 七 

工 Wan 上 上 白 号 Be 入 于 1what wI11L hapPen') IE we Put FEhe 

tomnz Change Commanaqs 血 E1ion 引 Set bf ines1. IT I unaerstana 
hangS 【correct1Y) ，the BELTLtaITOI Ine eauSeE Deroblems .1Mo2h . 
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工 8 七 HE 上 上 已 曰 了 区 十 攻 三 位 且 生 CT 二 3 二 1 Intaypejust SmeLHing 已 上 人? 


Le 上 号 上 RSCE Faving Cewc en 已 1]ine fl[Iherel and 已 f1L Ithere) as 
家 和 】 六 站 站 FI 二 用 页 er 林 开 3 提 说 DFI 和 工 革 二 旺 [ 避 人 nmBS 晴 二 11SDHIePhe 荆 
Cn Dother me。 多 Fat 是 t1L1IIt 1S here) on the 1inez 
AREDST 昌 E1 Yo - 


这 个 样本 文件 灵 示 了 字体 更 改 命令 出 现 的 不 同 生 境 。 所 写 的 脚本 必须 能 匹配 当 
“@flfanything)” 出 现在 -' 行 ， 或 者 奋 “ 行 上 出 现 多 次 ， 或 者 扩展 到 多 行 的 情况 ， 


进行 单个 匹配 的 最 简单 的 方式 是 : 
syBELISTwAJTAAAIBALAAFRZS 


该 正则 表达 式 匹 配 “ 加 人 (和 ”并 使 用 \( 和 \) 保存 图 括号 中 的 任意 内 容 ， 在 赫 换 
部 分 ,保存 的 匹配 部 分 用 “1” 回调。 


在 sed 脚 机 中 播 人 该 命令 ， 并 在 样本 文件 上 运行 它 ， 


六 号 号 加 - 主 吕 必 旺 .二 全 也 七 白 折 七 

工 WaIIL 七 哲 号 ee “ 工 Bwttar WE happen xfR if we Dut the 

Iont cnang 折 commands EtBomn 站 Se cf LijnesytR。 IEt I understano 
things (CCrrect1y)， he YEBEhiraq) Line causes Drobleamns. (NO?7YER- 
JS 上 上 hs 节 所 和 十 hi 全 玖 二 Eee， CT 1 E faybe)y juast bomething ES 所 9 


工 委 让 呈 上 生 窜 上 习 二 WVIDn TWO On 站 了 让 训 下 下 hi 生 < 呈 ) and 得到 1 全 全 吕 王 及 局 
WET1L ae De Fhat be 人 Sirs om one 1ine arad enas 人 El1ISsormewhere 
它 用 已 癌 蕊 用 丰 六 工 1 所 )》 ， 购 Pa 工 攻 三 Bi 号 区 全 fr 和 NERR DT 二 hi 了 宇 上 也 了 

卫 科 人 上 上 所 六 上 上 巴 记 me 王 及 。 


蔡 换 命令 在 前 两 行 可 以 正确 地 工作 ,但 它 在 第 三 行 失效 ,在 第 二 段 的 第 一 行 也 失效 ， 
在 这 些 行 上 多 次 出 现 了 字体 更 改 命令 。 


因为 正则 表达 式 总 是 进行 可 能 最 长 的 匹配 ,“.*” 匹配 从 “人 @@l(” 开始 到 这 一 行 上 的 
节 后 “个 右 贺 插 号 的 所 有 的 字符 。 换 名 话 说 ， 由 “.*” 标 识 的 跨度 在 它 找到 的 最 后 
一 信 右 圆 括号 时 结束 .而 不 是 第 一 个 右 圆 括号 。 


我 们 可 以 通过 将 正则 表达 式 “.*” 修 政 为 除 “)” 以 外 的 零 次 或 多 次 出 现 的 任意 字符 
来 解决 这 个 问题 ， 即 ; 


[ 
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在 字符 类 中, 采 字 符 (* 反 转 了 操作 的 含义 ,所 以 它 此 配 除 在 方 括号 中 指定 的 那些 
生 闪 以 外 的 其 有 的 宇 短 ， 下 而 是 作 订 后 的 全 人 


号 1 上 有 了 本 


现在 ,我 们 就 让 了 一 个 谷 令 , 这 - 俞 令 可 以 处 理 -一行 中 出 现 :个 或 多 个 字体 更 改 命 
令 的 情况 了 。 


1 WaPT [5 See ESwhat will hapmenyFz [we DuL the 

上 CI CDangde Comumsarnds stBoI 引 Set cf LinessTRTT T UnderstLarad 
LhELngs Teerreet2y)vtnc TBthirda te 11ne causes Drcoblems， (No3?1 - 
ITS 上 hi1E T 全 ay heE case，or 18 it (msayPsl JJst Something ELse2? 


三 所 二 中 全 妆 玫 站 避 条 于 二 WO OF 二 了 站 昌 于 De 开关 ER 忆 0 本 必 上 也 七 明志 工 坪 AE 民 电 
WeT1 6 DC hat begjins om one 上 Lrce ard engg 上 ft17comewbhere 
on anpther Tinel ，WhaL 1 YEBit 1 DereasER oO khe ] ine3 
mOEheT TBcmestR- 


这 个 命令 可 以 处 理 除 第 一 段 中 扩展 到 两 行 的 情况 以 外 的 所 有 的 情况 。 在 解决 这 个 癌 
题 以 前 ,看 看 Lenny 的 第 “ 仿 解 决 方案 以 及 它 为 什么 失败 是 很 有 趣 的 ,下面 是 Lenay 
的 第 一 个 脚本 : 


BELI7 2 
号 7 和 工人 《AAS 瑟 / 
SAwvER7S 


他 试图 通过 指定 行 范围 来 号 配 跨越 在 多 行 上 的 出 现 来 处 理 这 个 问题 下面 是 在 台 试 
文件 上 运行 这 个 脚本 的 结果 : 


S Be 以 - 王 日 刀 弓 . 工 包 已 七 名 日 上 . 工 6 

工 WaTL 圭 巴 各 各所 Bat will hapPenvER 1 we BULE the 

Tent change commands vtBcn 中 Set Df LiresvEtR，、 If IT undaarstana 

二 hn 人 姜 《CORECt 上 Th 全 “于 县 th 及 ) 1 ne 挛 有 US& REDPLems (NoozvER， 

工 S 上 hi 人 上 ealiy the Case，or 13 it [Inaybe) jusr somethimng elLse? 


Jet' SB “人 St having twc co 吕 1ine vtBahereland icEherevEtR as 
well1 as 5ne tnat Pegins en cne 1ine anad emnas ATBSomeswhere 
站 了 I 二 也 总 和 ET 主人 主 民 ， What 了 工 二 YYfEBiT 1 Dere ER on the ine? 
anornher vTEBonevfR. 





匹配 包含 “) 的 行 会 得 到 行 上 只 包含 圆 括号 的 不 必要 的 匹配 .匹配 多 行 上 的 模式 的 
解决 方案 是 创建 多 行 模式 空间 . 如 果 我 们 匹配 “人 @f1C 并 且 役 有 找到 右 羡 括号 的 话 ， 


一 一 -一 一 -一 ---- 





那么 就 需要 将 另 一 行 读 人 〈N) 缓 训 区 并 试 着 生成 与 第 一 种 情况 相同 的 匹配 《器 表 
示 换 行 符 )。 


SrQtlis [ix lrystB 1 ER79 
7 全 于 1 1 .*7T 

末 

SBfltyt xsn[> av)7vSES LERYG 
1 


可 以 对 它 进行 铀 试 ， 得 出 : 


$ 日 Gd -上 日 BeWw 七 白 亲 七 

工 WaTL 上 十 Se “上 Bwhat WilLl happenvEtR 1 we BuUt [he 

fonkt caange commanas YtBon a Set cf linesvtR。、If TI undetrstana 
things (COrzecCL1yY} ，tre xfBLhirdvfR 1ine causes brohblems.tNo3?) - 
TB 上 了 is 工人 al TY he ase，Or is 1 (maybe) just SDInething 扎 ] S7 


Tc 后 上 est having two on aa Tine s%FRhe>revER and v%EBtherevER aS 
We1L1L as De +hat beglns an one line ana ends \EBecomewhere 

om ano=her ine ER。，What 1 BFliit is 有 herej cn the lines? 
ancther \EBonevfR . 


正如 所 看 到 的 那样 ， 我 们 捕 担 了 除了 倒数 第 二 个 字体 更 改 命令 之 外 的 所 有 的 匹配 。 
N 命令 将 第 二 行 读 人 模式 空间 。 肢 本 匹配 跨越 遇 行 的 模式 ， 然 后 从 模式 空间 输出 这 
两 行 .第 二 行 会 怎么 样 呢 ? 它 需 要 一 个 机 会 让 脚本 中 从 上 至 下 的 所 有 命令 应 用 到 它 。 
现在 ， 也许 你 明 自 了 我 们 为 什么 需要 像 上 一 节 所 讨论 的 那样 建立 一 个 多 行 输 人 /给 
出 循环 。 我 们 在 脚本 中 增加 多 行 Print 命令 和 多 行 Delete 命令 。 
# 改变 scripe 字体 的 脚本 
虽 v 让 上 人 [>] SAEBwTLvSERZ 了 
下 TY 
semtvtaun [sjANAEB ALNYERZ7S 
了 


也 
] 


这 可 以 解释 为 ; 一 旦 进行 跨越 两 行 的 替换 ,就 打印 第 一 行 并 且 把 它 从 模式 空间 删除 。 
第 二 部 分 保留 在 模 式 空 间 中 , 将 控制 转移 到 脚本 的 顶端 , 这 时 检查 是 否 在 该 行 上 还 
有 其 他 的 “@fl”. 


修订 的 丢 本 匹配 样本 文件 中 的 所 有 的 出 现 。 然而 ， 它 并 不 完美 . 所 以 我 们 将 再 次 听 
取 Lenny 的 意见 。 
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包含 那 一 行 


模式 空间 是 容纳 当前 输入 行 的 缓 训 区 。 志 有 一 个 称 为 保持 空间 (hold space) 的 预 
留 〈set-aside) 缓冲 区 。 模 式 空间 的 内 容 可 以 复制 到 保持 空间 ， 而 且 保 持 空间 的 内 
容 也 可 以 复制 到 模式 空间 ， 有 一 组 命令 用 于 在 保持 空间 和 模式 空间 之 间 移 动 数据 。 
保持 空间 用 于 临时 存储 。 单 独 的 命令 不 能 好 址 保持 空间 或 者 更 改 它 的 内 容 。 





保持 空间 最 常 匈 的 用 途 是 , 当 改 变 模 式 空 间 中 的 原始 内 容 时 ,用 于 保留 当前 输入 行 
的 副本 。 影响 模 式 空 间 的 命令 有 : 











命令 | 编写 | 功能 

Hold h 或 也 将 模式 空间 的 内 容 复 制 或 追加 到 保持 空间 
Get ,.& 或 加 将 保持 空间 的 内 容 复 制 或 追加 到 模式 蛮 间 
蔚 xchange K 变换 保持 空间 和 和 司 式 空间 的 内 容 





这 些 命令 中 的 每 一 条 都 可 以 利用 一 个 地 址 来 指定 上 行 或 行 范围 。hole (h, 瑟 命令 将 
数据 移 至 保持 空间 ,而 get(g、G) 命 令 将 保持 空间 的 数据 移 回 到 模式 空间 。 间 一 命 
令 的 小 号 字母 和 大 写字 且 之 间 的 差 则 是 , 小 写字 母 命令 改 当 目的 缓存 区 的 内 容 , 而 
与 字母 命令 筷 如 缓存 区 的 现 有 内 容 。 





1 人 人 月 梳 下 宣 昌 站 站 容 等 取代 保持 空间 的 内 容 。get 命 令 用 保持 空间 的 内 容 取代 模 


Hold 命 令 在 保持 空间 的 内 容 之 后 放置 一 个 换行 符 , 且 后 面 跟 随 模 式 空 间 的 内 容 ( 即 
使 保持 空间 是 空 的 , 换行 符 也 被 所 可 到 保持 空间 中 )。Get 命 令 在 模式 空间 的 内 容 之 
后 放置 一 个 换行 符 ， 且 后 面 跟随 保持 空间 的 内 容 。 


变换 命令 安 换 两 个 缓存 庆 的 内 容 。 对 两 全 组 存 区 证 有 副作用 。 


我 们 使 用 较 通 众 的 示例 来 解释 在 保持 空间 才 人 行 , 并 在 稍 后 检索 它们 的 情况 。 我 们 
将 编号 -个 脚本 来 反 转 部 分 行 。 我 们 将 使 用 “个 煞 字 列 表 作 为 样本 文件 ; 


工 
之 
工 工 


人 22 
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222 
这 里 的 日 的 是 舌 便 以 1 开始 的 行 和 以 2 开始 的 行 的 听 序 。 下面 展示 了 如 何 使 用 保持 
空间 : 我 们 将 第 一 行 复制 到 保持 空间 〈 它 一 直 在 那 ) ， 这 时 清除 模式 空间 。 然后 sed 
将 第 … 行 读 人 模式 空间 , 并 且 将 保持 空间 的 行 过 加 到 模式 空间 的 结 昆 。 请 看 下 面 的 
脚 标 : 


#f 度 转 fljp 
六 


匹配 1 的 任何 行 都 被 复制 到 保持 空间 并 且 从 模式 空间 中 删除 。 控制 转移 到 脚本 的 
顶端 并 且 不 打印 那 一 行 . 当 读 取 下 “ 行 时 ,， 它 匹配 模式 “2” 且 将 巴 经 复制 到 保持 空 
间 的 行 妃 加 到 模式 空间 之 后 。 然后 两 行者 被 打印 出 来 。 换 名 话说 ,我 们 保存 这 两 行 
中 的 第 一 行 并 且 直 到 匹配 第 二 行 时 才 输 出 它 。 


下 面 是 在 样本 文件 上 运行 这 个 脚 李 的 结果 : 


汪 Be 人 -于 日 e 凡 .于 甩 七 避 有 t .开工 了 P 
忆 

] 

了 六 

“| 

了 了 避 

111 


在 hold 命令 后 面 跟 delete 命令 是 一 种 常见 的 搭配 。 没 有 delete 命 令 , 控制 将 一 直 进 
行 到 脚本 的 底部 , 并 且 模 式 空间 的 内 容 将 被 输出 . 如 果 脚 本 中 使 用 nextCn) 命 令 而 不 
是 delete 命 令 ， 那么 模式 空间 的 内 容 也 会 被 输出 。 可 以 通过 完全 期 除 delete 命 令 , 或 
者 在 它 的 位 置 上 放置 next 命令 ， 来 用 这 个 了 邯 本 做 实验 。 还 可 以 看 看 如 果 使 用 ?代替 
如 会 出 现 什 么 情况 。 


虽然 这 个 脚本 对 于 演示 这 -目的 是 有 用 的 ， 但 要 注意 这 个 脚本 的 逻辑 性 是 很 莽 的 。 
如 果 一 行 匹 配 第 -个 指令 并 旦 下 “ 行 匹 让 第 二 个 指令 失败 , 那么 第 一 行 就 不 会 被 输 
出 ， 这 是 -个 吝 铀 ， 因 为 它 鸽 行 消 朱 。 


高 级 sed 命令 _ 和 





大 写 转 换 

上 - 章 我 们 介绍 了 转换 命令 17), 并 且 撞 壕 了 在 “ 行 上 如 何 将 小 写字 母 转换 为 大 号 
字母 。 因 为 了 命令 作用 于 模式 空间 的 所 有 内 容 ， 所 以 对 行 的 一 部 分 进行 逐 字 转换 有 
点 繁琐 。 尽 管 这 有 点 信人 费解 ， 但 也 古 可 能 的 ， 正 如 下 面 的 示例 所 这 示 的 翔 样 。 


当 编 气 程序 设计 指南 时 ,我 们 发 现 话 他 的 名 字 输 入 不: 致 . 它 们 应 该 都 为 大 写字 母 ， 
但 是 有 一 些 是 小 写字 母 而 另 一 些 的 首 字 母 印 是 大 写 的 。 虽然 任 务 很 简单 , 就 旦 将 话 
名 的 名 字 改 成 大 写 , 从 是 这 里 有 将 近 100 条 语 外 ， 编 与 如 此 之 多 的 最 式 替 换 似 乎 是 
件 元 长 乏味 的 工作 : 


Srfing the Marcch StaceErmenk ina he MaTCH SFstetmerEy 各 


转换 命令 可 以 进行 小 写字 引 到 大 写字 母 的 转换 , 但 它 将 转换 应 用 于 才 个 行 , 使 用 保 
持 空间 可 以 实现 以 上 任务 ,因为 可 以 用 保持 空间 来 存储 输入 行 的 备份 而 将 语句 名 独 
立 出 来 ， 并 在 模式 空间 进行 转换 。 先 来 看 看 脚本 : 


# 将 诺 们 的 名 宇 密 成 天生 形式 

好 上 上 he -二 日 二 emenmt 

也 

号 -十 抽 忆 【二 号 起 志士 后生 D 丰 -二 YN 7 

yy 自白 它 本 所 芋 可 ijK mnDCPG9EStUVwYZAABCPRRZGHTOIKLMNOEQRRSTLVWXYZ 7 
总 

号 由 AD -二 记忆 习 ) -二 吕 开 总 二 BILL YA AT 

了 


地 址 将 过 程 限制 在 匹配 “the.*statement” 的 行 上 . 让 我 们 看 看 每 个 命令 都 做 了 些 什 


么 ; 


Ph hold 命令 将 当前 输 人 行 复制 到 保持 空间 。 使 用 样本 行 “find the Match 
statement” ， 我 们 来 显示 模式 空间 和 供 持 空间 的 内 容 。 在 应 用 了 命令 之 后 ， 模 
式 空间 和 保持 空间 的 内 容 是 完全 相同 的 。 


上 上 汗 不 寸 白 D 有 aC 白 ; 了 TD 可 二 二 忆 交 曰 七 写 h S 七 己 蕊 em 
DID Spaee: 上 Indq 七 避风 总 七 之 吕 吕 七 忌 七 eImeTL 芋 





呈 7 .六 Hthe AT ,x*Av) Satement .xz 
这 个 赫 换 命令 从 行 中 提取 语句 的 名 字 ， 并 且 用 它 来 取代 整 仿 行 。 


五 二 才 白 工 玫 号 吕 号 己 : Match 
再 DJ 可 parei 上 Do 七 he MaLCH St 上 ememt 


1 


时 
的 
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Y/abcdefghijkxlmnopqrstuvwxyz/AABCDEFGHIJKLNMNOPORSTUVWNXY2/ 
这 个 转换 命令 将 每 个 小 写字 母 转换 成 大 与 字 苹 ， 


二 口上 志 声 已 工 品 “ 品 iPeamG : MacTCH 


Jo1a Space: finpd the Match Sarernent 

G Get 命令 将 保存 在 保持 空间 中 的 行 塌 加 到 模式 空间 。 
太志 上 ETD SPa3aee : MaTCHYTEIna the Match 号 上 二 上 enet 
PoJlal Space: 下 in 避 七 hi 所 网 避 二 hh 且 七 二 七 和 Xie 世 二 


SA AN AN Fr 有 AN .wxNT 生 Sa 世 eemtL .NAA2NLY3A 
这 个 替换 命令 匹配 模式 空间 的 3 全 不同 的 部 分 : 1) 代 人 的 换行 符 之 前 的 所 有 
的 学 符 ，2) 从 伐 和 人 的 换行 符 开 始 直到 后 面 跟 有 一 个 空格 的 “ 世 e”, 且 包 括 the 
在 内 的 所 有 字符 ,3) 以 空格 并 日 后 面 路 有 “statement” 开 始 直到 模式 空间 结 
昆 处 的 所 有 的 字符 。 当 语句 的 名 字 出 现在 原始 行 中 时 ,被 匹配 而 不 被 保存 .这 
个 命令 的 替换 部 分 回调 被 保存 的 部 分 ,并 按 不 同 的 顺序 重新 组 合 它 们 ,在 *the” 
和 “statement” 之 间 放 置 大 写 的 命令 的 名 字 。 


上 村 亡 亡 志 ziPaee: fina LE MaTPH StatememE 
He SpaCei Enqa 二 he Match StateImert 


我 们 来 看 看 试 和 运行 。 下 面 是 样本 文件 : 
fiinad che Matcmn Statermert 


CnsuU1+ rnrm Ct Statemert - 
人 Sm 自 二 DB Reaa 号 二 忆 CEMIIeri 七 七 口 工 伺 蕊 症 j 尼 V 马 问 己 廿 总 


在 这 全 样本 文件 上 运行 以 上 脚本 结果 如 下 : 
于 in 术 七 EMATCHJ BTaLGImED 二 


ConsuUlL the GPRT Stacemerit . 
ai 了 本 二 he 有 READ 七 二 全 TIEDL 寺 D TetTr-eVe Qdata 


从 这 个 脚本 可 以 看 出 , 灵活 地 使 用 保持 空间 对 于 杭 离 和 操作 输入 行 的 某 部 分 内 容 很 
有 用 。 


纠正 索引 条 目 〈 第 二 部 分 ) 


上 一 章 介 绍 了 名 为 index.edit 的 shetl 脚 本 。 这 个 脚本 从 一 个 或 多 个 文件 中 提取 索引 
条 目 ， 并 自动 生成 由 每 个 索引 条 日 的 赫 换 命令 组 成 的 sed 脚本 。 我 们 提 到 的 这 个 肢 


高 角 sed 命令 0 





本 有 -个 小 失误 ， 它 下 能 找 出 在 索引 条 目 中 以 宣 拓 值 出 更 的 正则 表达 式 的 元 字符 ， 
如 下 所 泵 : 


.其 其 “站 号 芝 全 让 上 上 呈 人 人 】 珊 已 七 总 它 寺 本 工 喜 忆 七 振 并 " 
处 理 这 个 条 目 之 后 ， 原 始 的 index,ed 计 生成 下 列 替换 命令 : 


好人- 革 基 站 7 二 中 让 二 区 站 后 生 站 话 卫 流 工 商 忆 匡 生 入 了 问号 二 丰 节 二 号 全 【 才 ]】 开 扣 上 本 CH 总 C 它 卫 字 


虽然 它 “ 知 道 ” 转 义 “.XX” 前 面 的 句点 ， 但 是 它 不 能 保护 元 字符 “*” 。 问 题 是 模 
式 “(“ 不 匹 配 “()"， 因 此 应 用 替换 命令 将 失败 。 解 决 方 靶 是 修改 index.ettit， 
使 它 能 寻找 出 元 字 管 并 且 转 叉 它 们 。 还 有 一 种 手法 : 在 替换 字符 串 中 识别 一 组 不 同 
的 元 字符 。 


我 们 必须 维护 索引 条 上 月 的 两 份 指 贝 。 编辑 的 第 一 份 备份 用 干 转 义 正则 表达 式 的 元 字 
， 然 后 再 用 上 相应 的 模式 。 编 辑 的 第 一 份 备 份 转 义 对 替换 字符 串 来 说 特殊 的 元 字 
。 在 我 们 编辑 第 一 份 省份 的 时 候 ， 保 持 空间 保存 第 二 份 竺 份 ， 然 后 交换 这 两 份 备 
， 并 编辑 第 二 份 备 份 . 下 面 是 脚本 


宇 妆 并 


# 1 binysh 
# inaex.eqik-- 编译 索引 项 日 的 列表 
# 以 使 于 编辑 匹 氏 元 字符 的 新 版 本 


人 Fep "“V-xXX" Sr | Sort -ua | 


SeQ 

了 

SIYYr evwwkz 

区 

久 [AAA 匡 ] AAS 

富 六 -其 壬 了 

SS 

区 

BA SEE SN AL 
名 


SADAa 


hoid 命 令 当 前 索引 条 目的 备份 放 入 保持 空间 . 随后 的 替换 命令 寻找 下 面 元 字符 中 
的 任意 一 个 : “了 了 “或 “"。 这 一 正则 表达 式 非常 有 趣 : 1) 如 果 右 方 
括号 是 字符 类 中 的 第 - ' 个 字符 , 那么 它 由 字面 意义 解释 ， 而 不 是 类 的 右 定 界 符 ; 2) 
在 指定 元 字符 中 ,上 只 有 反 用 杠 在 字符 类 中 有 特殊 含 尽 而 且 必 须 被 转 义 。 并 且 ,， 不 需 
要 转 叉 元 字符 “*” 和 “$ ， 因 为 仅 当 它们 分 别 位 于 正则 表达 式 的 第 一 个 或 最 后 一 
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个 位 置 时 才 有 特殊 含义 ,对 于 给 定 索引 条 目的 结构 .这 是 不 可 能 的 。 转 义 元 字符 之 
后 ， 交 换 命 令 交换 模式 空间 和 保持 空间 的 内 容 。 


从 行 的 新 省 份 开始 , 替换 命令 为 替换 字符 串 滞 加 反 许 杠 来 转 义 反 斜 杠 或 “与 "符号 。 
然后 用 另 一 个 替换 命令 从 行 中 删除 “.XX”, 随后 的 一 条 替换 命令 在 这 行 末 端 追 加 一 
个 反 钳 枉 ， 产 生 了 - -个 如 下 的 替换 字符 串 。 


局 全 牛 1 之 匡 【7 metacharacter" 


再 一 次 使 用 交换 命令 交换 模式 空间 和 保 排 空间 的 内 容 。 对 于 模式 空间 的 第 一 份 备份 ， 
我 们 需要 准备 模式 地 址 和 替换 模式 。 搂 下 来 的 替换 命令 保存 了 索引 条 目 . 并 且 用 赫 
换 命令 的 诸 法 的 第 - -部 分 取代 这 行 


人 
使 用 样本 条 上 映 ， 模 式 空间 将 产生 下 列 内 容 
SS 人 TS TY) TetaCDRAESCLeT" 7 


然后 Get 命令 获 归 保持 空间 的 替换 字符 种. 并且 把 它 亿 加 到 模式 空间 。 因 为 Get 还 
插入 一 个 换行 符 ， 所 以 有 必要 用 替换 命令 短 除 它 。 景 终 输出 如 下 的 行 ， 


写本 中 开工 其 人才 】 于 所 七 疝 全 用 且 大 己 放 生息 2 六" 忆 3 七 儿 站 SSK 《* 丽 忆 十 号 忆 所 王 天 本 玫 上 全 证 


构建 文本 块 


保持 空间 可 用 于 在 给 出行 和 由 之 前 收集 它们 。 一 些 tro 伸 请 求 和 宏 是 面向 块 的 , 这 命令 
中 必须 包围 文本 块 。 通 常 在 蕊 开始 处 的 代码 用 启用 格式 , 而 在 块 结尾 处 的 代码 用 禁 
用 格式 ，HTML 编码 的 文档 还 包含 许多 面向 块 的 结构 。 例如,“<p>” 和 “</p>” 分 
别 用 于 开始 和 结束 - ' 个 段 藩 。 在 下 :个 示例 中 ,我 们 将 看 到 在 纯 文本 文件 中 故 置 
HTML 风格 的 段落 标签 。 例 如 ,输入 文件 包含 由 可 变 长 刻 的 行 组 成 的 段落 。 有 段落 之 
间 都 有 一 个 空 行 。 因 此 ， 脚 本 必须 将 空 行 之 前 的 所 有 的 行 收 集 到 保持 空间 。 检 索 保 
持 空间 的 内 容 并 且 用 展 沙 标签 包围 这 些 内 容 。 


下 面 是 脚本 : 


7 
了 


高 级 sed 命令 J47 








四 | 
} 
5 
区 
号 ”TIT17 丰 7 
日 有 eve， 


了 
总 


在 样本 文件 王 运行 这 个 脚 森 会 产生 : 


32Y WE VOD ET Te Puy 日 DDwer Saw。 She 1S 豆 ftraia cf an 
acer1laent LIL TI use are。 

号 BR 工 呈 多 QI 3 了 Sm 不 W 下 OF 己 克 总 工人 T 凶 中 下 W 全 全 Ke 和 PFC eezS 上 Ke 
PullaLcc shelwes， 

贞 疡 儿 人 VEIT， 1 工 中 昌 呈 mW LVIRS 旺 站 女生 EDeTIET TI WeU] 习 

阳 忆 V 十 口 记 Se 己 站 we 

号 号 WU -ThG 和 Feae 吕 anDQ efficiency 区 Povjdeo br Power -oole 

WU] 吕 PPe 忆 SSEntial ttO Beino Ereaductive .< DB> 


怀 区 >FOOT 区 作曲 记 -全 WW 口 C 工 忆 本 七 名 羡 3O mealify Lexkt 芋 1Iles， 
号 CR aaTIQ aw< RSTe Power LoDbls for sdiring- = 它 > 


<P>MeSE Df tne ThIPOS thar yeu can ao WitLn these Drogramnes 
外 各 站 区 后 me ID 二 全 三 3CLIWYELY wh 号 text eqEor，Homever， 
富 上 n 休 二 HeSse PogITams Ran Save manY hoOUTR DFT eper:Livee 
WCG 人 工 了 总 忆 下 斌 已 Wi 可 二 he 93 全 工 芝 急 上 上 .< 2 和 > 


这 个 了 邯 本 有 两 个 基本 部 分 ， 相 应 有 各 自 的 地 址 。 如 果 输 和 信行 不 是 空 行 则 做 .- 件 率 ， 
如 果 它 是 空 行 则 做 另 一 件 事 。 如 果 和 输入 行 不 是 空 行 , 它 就 被 奶 加 到 保持 空间 !( 用 孔 )， 
然后 从 模式 空间 中 删 除 . 删除 命令 阻止 行 的 输出 并 且 清 除 模式 空间 。 控制 转移 回 和 脚 
本 的 顶端 并 污 取 个 新 行 。 总 的 思想 是 不 输出 任何 文本 行 , 而 将 它们 收集 到 保持 空 


间 ， 


如 果 和 输入 行星 空 行 , 则 处 理 保持 空间 的 内 容 。 为 了 说 明 第 二 个 过 程 ， 我 们 使 用 上 一 
个 样本 文件 的 第 一 段 并 显示 所 发 生 的 事情 。 人 在读 取 一 个 空 行 之 后 , 模式 空间 和 保持 
空间 包 沼 下 询 内 容 ; 


古 本 上 亡 司 T 号 中 站 己 上 : “ 台 

Ho Space: WIIROF 民 司 有 1 人 WO CPPeate 站 -本 
四 中 昌 1 Y 七 XC 于 半 1 全 5， msEad and 
Ka 避 苇 口 W 所 志士 白 口 1S 于 局 工 
editing - 


模式 空间 的 空 行 表示 为 “^$" ， 即 匹配 它 的 正则 表达 式 。 保 持 空 间 的 个 人 的 换行 符 
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才 未 为“ ,注意 ，Held 命令 在 保持 空间 插入 换行 符 ， 然 后 将 当前 行进 加 到 保持 
空间 。 即 使 保持 空间 为 空 ，Hold 俞 令 也 将 在 异 式 空间 的 内 容 乙 前 放置 换行 符 。 


交换 命令 (x) 交换 保持 空间 和 模式 空间 的 内 容 。 空 行 被 保存 在 保持 空间 , 所 以 我 们 
可 以 在 过 程 结束 时 检索 它 【 也 可 以 用 其 他 方式 插 人 换行 符 )。 
Eee SFQCet srDT DeonlE mh eeTeacre amaqd 
mmCQiiyw text 下 11eS， VDmSE aond 
避 W 区 总 开 呈 POORWE 工 七 CODES DT 
eaIYinS， 
Fo Spadace: “多 


搂 下 来 进行 两 个 蔡 换 ; 在 模式 空间 的 开始 位 置 放 吗 “<p>”， 并 且 在 结束 位 置 放置 
“<fp> 。 第 个 替换 命令 正 配 “Am”, 因为 以 上 的 Hold 命 令 使 换行 符 位 于 行 的 开始 
位 置 。 第 一 个 替换 命令 匹配 模式 空间 鸣 结 尾 (“"$ ”不 匹配 任何 九 人 的 换行 符 而 只 匹 
配 末端 换行 符 ) 。 





ESGz SECe: 有 2FmT 症 台 让 1 算 人 WPOC 芝 生 所 忆 十 扣 马 
TnealfY LEXt 上 11 拓 3 nseO amd 
EWK 瑟 TE POWEREI 上 OOD1S 【OF 
刀 局 iLIDS .< P> 

5 Spacel “三 


注意 , 戏 人 的 换行 符 保 存在 模式 空间 中 。 最 后 一 个 命令 如 将 保持 空间 的 空 行 追 加 到 
模式 空间 。- 旦 到 到 脚本 的 底部 , sed 就 输出 在 保持 空间 中 收集 , 并 在 模式 空间 中 编 
码 的 段落 。 


该 靶 本 说 明了 如 何 收集 输入 并 将 它 保存 到 保持 空间 中 ， 直 到 匹配 另 一 个 模式 为 止 。 
注意 肢 本 中 的 访 榨 制 是 很 重要 的 。 脚本 中 的 第 一 个 过 程 并 役 有 到 达 底 部 ,因为 我 们 
还 不 想 要 任何 输出 。 第 二 个 过 程 到 达 底 部 ,在 开始 收集 下 一 段 著 的 行 之 前 清除 模式 
空间 和 保持 空间 。 


这 个 脚本 迹 说 明了 如 伍 使 用 寻 址 来 建立 下 斥 的 地 址 ,即行 必须 匹配 互 斥 的 地 址 中 的 
-个 或 另 一 个 地 址 。 还 可 以 设置 地 址 来 处 理 输入 中 的 各 种 例外 , 并 且 因此 改善 脚本 
的 可 车 性 。 例 如 ,在 上 一 个 脚本 中 ， 如 果 输 人 文件 的 最 后 一 行 丰 为 空 会 出 现 什 么 情 
况 ? 从 最 后 -全 空 行 以 来 所 收集 到 的 行 都 不 会 被 输出 。 处 理 这 种 情况 有 多 种 方式 ， 
但 是 较 聪 明 的 方式 是 构造 一 个 室 行 , 随后 处 理 空 行 的 过 程 会 对 其 进行 匹配 处 理 。 换 
知 话说 ， 如 果 最 后 一 行 包含 行文 本 , 那么 我 们 将 把 它 复制 到 保 竺 空间 并 用 替换 命 
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令 清 除 模式 空间 的 内 容 ， 将 当前 行规 换 成 空 行 , 使 它 下 配 用 来 给 出 已 经 收集 在 保持 
空间 中 的 内 容 的 过 程 。 下 面 就 是 处 理 过 程 : 


S1 


这 个 过 程 必 须 放置 在 脚本 中 并 在 前 面 给 出 的 两 个 过 程 之 前 。 寻 址 符号 "$” 只 匹配 文 
件 中 的 最 后 一 行 。 这 个 过 程 测试 不 为 空 的 行 。 如 果 行 为 室 ， 那 么 不 做 作 何 处 理 。 如 
果 当 前 行 不 为 空 ， 肿 么 就 把 它 追 加 到 保持 空间 。 这 就 是 在 另 一 个 过 程 中 匹配 非 空 行 
所 笋 的 事情 。 然 后 使 用 替换 命令 在 模式 空间 创建 -个 空 行 。 


一 旦 退出 这 个 过 程 , 在 模式 空间 中 会 有 一 个 空 行 - 它 匹配 后 续 过 程 中 的 空 行 并 添加 
HTML 分 段 标 冤 ， 同 时 和 输出 段 获 。 


党 《 公 、 

高 级 的 流 控制 命令 

我 们 已 经 看 过 了 儿 个 改变 sed 的 正常 流 控 制 的 示例 。 在 本 节 中 ， 我们 将 会 看 到 两 个 
用 于 控制 执行 半 本 的 哪 - -部 分 以 及 何 时 执行 的 命令 。 分 支 (b) 和 测试 {t) 命令 将 
脚本 中 的 控制 转移 到 包含 特殊 标签 的 行 。 如 果 设 有 指定 标签 , 则 将 拧 制 转移 到 脚本 
的 结尾 处 。 分 支 命令 用 于 无 条 件 转移 ， 测 试 命令 用 于 有 条 件 转移 ， 它 们 只 有 当 赫 换 
命令 改变 当前 行 时 才 会 执行 。 

标 答 是 任意 不 多 于 ?了 个 定 符 的 序列 ( 注 1)。 标 签 本 身 占 据 一 行 并 以 冒号 开始 : 


:yl 页 be1 


在 冒号 和 标签 之 问 不 允许 有 空格 。 行 结尾 处 的 室 格 将 被 认为 是 标 得 的 一 部 分 . 当 在 
分 支 命令 或 测试 命令 中 指定 标签 时 ， 在 命令 和 标签 之 间 允 许 有 空格 : 


于 和 二 切 尼 | 


注意 ， 不 要 在 标签 后 面 斤 人 空格 。 





证 1: PODSIX 标 准 表 明 具 体 实现 工具 和 驳 许 有 其 较 长 的 标 登 。GNU sed 克 许 标 畦 为 性 总长 度 。 
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分 支 
hranch 命令 用 于 在 脚本 中 将 控制 权 转移 到 另行 。 


aaGresslb[Iabe7l] 


lapei! 是 可 选 的 , 如 果 设 有 给 出 label, 控制 就 被 转移 到 脚本 的 结尾 处 。 如 果 有 1abel， 
就 继续 执行 标签 后 面 的 行 。 


企 第 四 章 “ 编 与 sed 脚本 ”中 ， 介 绍 了 将 引号 和 连 字符 自身 的 排版 形式 转换 成 对 应 
的 排 萄 脚本。 如 果 想 要 三 免 改 变 某 些 行 , 那么 可 以 使 用 分 支 命令 跳 过 脚本 的 这 -部 
分 。 例 如 ,计算 机 生成 的 由 .ES 和 .BE 宏 标记 的 去 例 中 的 文本 不 应 该 被 改变 。 因 此 ， 
我 们 将 以 前 的 脚本 改 气 成 : 

站 

上 


号 
?| 3 7 


SA TEA AAAYLEm 7 
SAYTemA Temezag 
SA Tem AT em ”7 可 

号 7 BDG 反 7 ”7 


因为 役 有 提供 标签 ， 所 以 分 支 命令 跳 过 后 面 所 有 的 命令 转 到 脚本 的 结尾 。 


分 支 傅 令 可 用 于 将 一 组 命令 作为 … 个 过 程 来 执行 ,这 个 过 程 可 以 从 这 个 脚本 的 主体 
中 重复 调用 。 和 和 上面 的 情况 -' 样 , 它 也 可 用 于 避免 执行 某 个 基于 一 个 模式 匹配 的 过 
程 。 


通过 使 用 ! 并 组 会 一 组 命令 可 以 实现 娄 似 的 效果 - 在 应 用 中 对 分 支 命令 使 用 ! 的 优点 
是 ,可 坎 更 容易 地 指定 要 避免 的 多 个 情况 。! 符 号 可 以 应 用 于 单个 命令 , 或 者 应 用 于 
紧 随 其 后 的 包围 在 大 括号 中 的 一 组 命令 。 另 一 方面 ， 分 支 命 令 赋予 了 你 几乎 不 受 限 
制 的 脚本 足 转 控 制 能 力 。 


例如 ， 如 果 我 们 使 用 了 多 个 宏 包 ， 那 么 除了 .ES 和 .BE 之 外 ， 还 可 能 有 其 他 的 宏 所 
定 尽 的 范围 与 我 们 所 定 习 的 相 重 台 , 这 是 我 们 需要 全 力 寻 免 前 。 因 此 我 们 可 以 号 出 
下 例 : 
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VESY ye REE/D 

和 BEE 

aiG1 2 G2 了 
为 了 得 到 sed 肝 本 中 更 好 的 流 撑 制 业 型 的 想 社 ， 我 们 来 看 看 -- 些 既 简 单 又 抽象 的 示 
例 ， 第 :个 例子 才 明 了 如 何 使 用 分 支 命 令 创 建 钳 奈 。- - 旦 读 肾 -个 输 和 人 行 ， 
commandl 和 cominand2 就 会 应 用 证 那 一行 ; 然后 ， 如 果 模 式 空间 的 内 容 与 指定 的 
模式 上 瑟 配 ， 那么 控制 就 被 转移 到 中 在 标签 “topp” 后面 的 行 ， 这 意 彝 着 commandl 和 
comimand2 将 被 再 次 执行 ， 

:十 忆 站 

GetmmeatGlL 

CImmanDO 吕 


ae 七 巴巴 
Drum 了 


只 有 当 横 式 不 号 配 时 才 执 行 command3。 所 有 这 3 个 命令 都 会 执行 ， 尽 管 前 两 个 命 
令 可 以 多 次 执行 。 


在 下 一 个 例子 中 ,首先 秋 行 sommandl。 如 果 模 式 匹配 ， 控 制 私 就 转移 到 眼 在 标签 
“end” 后 面 的 行 ， 这 意味 着 跳 过 了 command2， 

CDImaDn go 

attaarny co 民 

们 OraIIGS 

:Enc 

CoInrano3 


在 所 有 的 情况 下 ， 都 会 执行 commandl 和 command3 。 


现在 ， 我 们 来 看 看 如 何 指定 执行 command2 或 command3 中 的 一 个 ,但 不 是 两 者 都 
执行 .在 下 一 个 脚本 中 ， 有 了 两 个 分 支 命 令 。 

怠 DIminaDn 司 1 

下 站 二 忆 工 内 攻 忆 让 丰 工 皇 全 

安 吕 TUYI 下 加 忆 

六 


:号 马 七] 合作 
COrtmaDn 3 


第 -个 分 支 命 令 在 模式 匹配 时 将 控制 转移 到 command3。 如 果 模 式 不 匹配 ， 则 执行 
command2。 跟 在 command2 后 面 的 分 支 命 令 将 控制 畦 移 到 和 靶 本 的 结 屁 处 ， 绕 过 了 


iamHPPPEITETE 9 err -urinary 





comrmand3。 第 一 个 分 支 命 令 执行 的 条 件 是 匹配 模式 , 第 二 个 命令 执行 役 有 条 件 。 我 
们 在 看 过 test 命令 之 后 会 看 到 个“ 真实 世 界 ” 的 示例 。 


测试 命令 


如 果 在 当前 匹配 地 址 的 行 上 进行 了 成 功 的 灰 换 ,那么 test 命令 就 转 到 标签 (或 者 枝 
本 的 结 属 ) 处 。 因 此， 它 隐 含 了 :个 条 件 分 支 。test 命令 语法 如 下 : 


[aocaoress]t[Iabe371] 


如 果 设 有 给 出 标签 Iapei, 控制 被 转移 到 脚本 的 结尾 处 。 如 果 提 供 了 标签 labe1, 那么 
就 继续 执行 标签 后 面 的 行 。 


我 们 看 看 来 自 Tim DReilly 的 一 个 示例 。 他 试图 在 计算 产生 命令 参考 页 项 端的 宏 申 
的 参数 的 基础 上 , 生成 自动 的 索引 条 目 。 如 果 有 3 个 引用 的 参数 ， 那 么 需要 做 一 些 
与 只 有 两 个 或 一 个 引用 参数 不 同 的 事情 。 这 个 任务 尝试 连续 地 (3. 2. 1) 匹配 每 一 
种 情况 并 且 当 成 功 地 进行 替换 时 ， 吉 免 进 行进 一 步 的 替换 。 下 面 是 Tim 的 脚本 : 

AR OA 

3 

RE 人 


上 
号 


一 且 一 个 蔡 换 被 执行 ,其 中 的 test 命令 就 使 控制 到 达 脚 本 的 末尾 。 如 果 在 .Rh 行 上 
有 3 个 参数 , 那么 第 … 个 替换 命令 之 后 的 test 命 令 为 真 , sed 继 续 进行 于 一 个 输 和 人行 。 
如 果 少 于 3 个 参数 ,就 不 会 进行 替换 ， test 命令 为 假 , 并 且 将 试 着 执行 下 一 个 替换 命 
令 。 这 个 过 程 将 一 直 重复 到 所 有 的 可 能 性 都 用 完 为 止 。 


test 命 令 提 供 的 功能 类 似 于 避 程 序 设计 语言 . 或 shell 程 序 设计 语言 中 case 诸 名 的 功 
能 。 即 铀 试 每 种 情况 并 且 当 一 种 情况 为 真 时 ， 退 出 结构 。 


如 果 上 面 的 脚本 是 -- 个 更 大 的 聊 本 申 的“ 部分， 我们 可 以 使 用 标签 (可 以 形象 地 命 
名 为 “break ) 直接 转移 到 分 组 命令 的 末尾 ， 然 后 继续 执行 其 他 一 些 命令 ， 


PR DC 
8 
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十 JreaK 


上 
: Deak 
HHDFC OPEC 


下 “项 给 出 了 test 会 人 和 标 符 的 用 法 的 一 个 完整 的 示例 。 


另 一 种 情况 
还 记得 Lenny 史 ? 他 提出 了 将 Scribe 文 档 转换 成 troff .我 们 向 他 发 送 了 下 面 的 脚本 : 


# 改变 Scripe 字体 的 脚本 
号 YGT3 fs Ts TYAYEBS TANASER7G 


7 和 1 二 

可 

SET DT ssEBSLSSERY7S 
P 

口 


】} 


他 使 用 这 信和 脚本 后 回复 了 如 下 的 邮件 : 


Tank YOU Se TRUST YOU We 诈 CE R 丰 下 让 Xe 日 二 二 总 号 C 工 工区 L 世 丰 Cwm 加 全 
Wexz 忆 工 册 昌 5 安 DnEE 间 号 人 昌 总 But FEhe Way 1 WOLTKS。 工 Cn 工 扎 中 避 iT 上 所 
COmVeTSTIOnD SCrIERt SOD hak lt WOTKXS Wikh whbat You'Ye Gone，hut to be 
疡 PP 上 上 语 mSE 上 She]la de 卡 we 贡 DTE 上 hings 上 ha 工 ca 名 EEIT 人 总 可 eL WwWOIKEinS 
可 七 站 上 一 加 本 Y 妆 所 上， 写 直 站 所 1 所 SS 总 D 和 二 呈 hou] be CO 区 世 和 W 拉 六 上 "名 

二 全 xz 总 - 

FITSLE， 工 和 1ike LDO FreQuce multtple Plank 1ines Dowr ko one . 

辣 双 们 站 诅 意 。 工 ' 司 】 庆 所 起 局 放 站 次 生 呈 忆 要 前 羡 十 避 本 七 臣 扬 五 忆 二 七 全 感 VE TIGI 上 上 五 3 了 七 W 属 
(1Say，evem OILLY Chreel1LLneS ， 


ThankS again 

PenmnY 
第 一 个 请 求 是 将 一 系列 空 行 缩减 为 一 个 , 这 已 经 在 本 章 介绍 过 了 。 下 面 的 4 行 执行 
这 个 功能 : 

上 

旺 


区 珀 史 7 瑟 
1 
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我 们 主要 来 看 看 如 何 完成 第 二 个 请 求 。. 前 击 的 字体 更 改 脚 本 创建 了 一 个 两 行 的 模式 
空间 ,党 试 生成 跨越 那些 行 的 匹配 ,然后 和 输出 第 . 行 。 第 二 行 成 为 模式 空间 中 的 第 
行 ， 控 制 被 传递 到 胸 本 的 顶端 ， 接 着 读 入 另 - 行 。 


我 们 可 以 个 用 标 黎 建立 读 家 多 行 的 循 乓 . 并 且 使 匹配 跨越 多 行 的 模式 成 为 可 能 .下 
面 的 脚本 设置 了 两 全 标签 ; 位 于 脚本 颜 端的 begin 和 位 于 脚本 底部 的 again.。 改进 的 
脚本 如 下 : 

# 了 牙 变 3Scrib= 衬 体 的 脚本 ， 新 跑 进 的 财 本 

:De 人 

人 

SAAEBYTLY ATER7O 

昌 呈 台 ] 

ET -wy 

本 

37 和 于 1 人 [二 TASBATLAAERY7 

1 色 可 已 

卫 耳 当 六 

:aoair 

了 

已 


我 们 来 进一步 查看 这 个 脚本 ， 它 有 3 个 部 分 。 从 跟 在 :begin 后 狸 的 行 开始 ， 第 一 部 
分 尝试 下 配 完全 在 一 行 上 找到 的 字体 更 改 语 站。 在 进行 替换 之 后 . 分 支 命令 将 控制 
转移 到 标签 begin。 换 句 话说 ， 一 旦 我 们 执行 了 匹配 ， 我 们 希望 返回 到 质 端 并 寻找 
其 他 可 能 的 匹配 ， 包 括 已 经 被 应 用 的 指令 《在 … 行 上 可 能 有 多 次 出 现 ) 。 


第 一 部 分 试 着 匹配 多 行 上 的 模式 -. Next 命 令 构建 了 多 行 模式 空间 。 替换 命令 党 试用 
模式 匹配 内 入 的 换行 符 。 如 果 臣 配 成 功 ，test 命令 将 掠 制 转 移 到 again 标签 后 面 的 
行 。 如 果 没 有 进行 替换 ， 控 制 就 被 转移 到 跟 在 标签 begim 后 面 的 重 ， 所 以 我 们 就 可 
以 污 尖 下 行 。 当 我 们 匹配 了 字体 更 改 请 求 的 开始 序列 但 还 没有 找到 结束 序列 时 ， 
这 个 循环 就 生效 了 。Sed 将 回 到 循环 开始 处 并 将 行 追 加 计 模式 空间 直到 找到 匹配 为 
止 。 


第 二 部 分 是 跟 在 标签 again 后 面 的 过 程 ， 檬 式 空间 的 第 一 行 在 输出 后 被 删除。 与 这 
个 脚本 以 前 的 版 本 相同 ， 连 续 地 处 理 多 个 行 。 控 制 永 远 不 会 被 转移 到 脚本 的 底部 ， 
而 古 被 DeIete 命令 重 定向 到 脚本 的 顶端 。 


一 一 
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加 入 一 个 短语 


我 们 已 经 介绍 了 sed 的 所 有 的 高 级 结构 , 现在 来 看 个 名 为 phrase 的 shell 有 和 脚本, 这 
个 脚本 用 到 了 几乎 所 有 的 sed 的 商 级 结构 。 这 个 脚本 是 通用 的 ， 类 似 于 Brep 程序 ， 
用 十 好 找 -系列 出 现在 两 行 上 的 多 个 单词 。 





与 Brep 一 样 , 该 程序 的 一 个 攻 不 可 少 的 部 分 是 只 打印 匹配 模式 的 行 。 你 也 许 认为 可 
以 使 用 -= 选项 来 抑制 默认 的 行 输出 。 然 而 ,这 个 sed 脚 本 不 寻常 之 处 是 它 创 建 了 一 
个 输入 /输出 循 坏 ， 用 来 控制 行 何 时 输出 或 不 输出 。 


脚本 的 逻辑 是 先 在 - 行 上 时 技 模 式 ,如果 匹 配 就 打印 这 一 行 。 如 果 没 有 找到 匹配 的 
内 容 , 就 将 另 一 行 读 和 模式 空间 (上 如 在 前 面 的 多 行 脚 本 中 那样 ), 然后 , 我 们 将 两 
行 的 民 式 空间 复制 到 保持 空间 以 保 势 其 内 容 。 现 在 , 以 前 被 读 和 人 模 蕊 空 间 的 新 行 本 
身 可 能 匹配 搜索 模式 , 所 以 我 们 想 要 的 下 一 个 匹配 只 在 第 一 行 上 , 一 旦 确定 在 第 一 
行 或 第 二 行 上 都 没有 找到 模式 ， 我 们 就 删除 这 两 行 之 闻 的 换行 符 并 卜 行 寻找 模式 。 








这 个 脚本 被 设计 为 可 以 接受 命令 行 中 的 参数 . 第 一 个 参数 是 搜索 模式 。 所 有 其 他 的 
命令 行 套数 都 被 解释 为 文件 名 。 在 分 析 它 了 前 我 们 先 来 看 看 整个 脚本 : 


上 1 Yinysh 

# phrase -- 青 找 跨行 的 划 词 
## = 个 找 的 证 特 出 :一 余 参数 = 文件 名 
己 马 且 Ce 廿 = 富 1 

ShiEr 

于 CT 工 守 1 

dc 

Se 

Seh" yb 

了 本 

也 

下 

1 全 自己 上 记号 


SA YA 7 
人 Sayreh" 7 
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名 为 seareh 的 shell 变量 被 指定 为 命令 行 上 的 第 -个 参数 ， 它 表示 搜索 模式 。 这 个 
脚本 展 去 了 将 shelt 变 员 传递 给 靶 本 的 另 一 种 太医 .这 里 我 们 用 一 对 驶 引 民 把 变量 引 
用 括 起 来 ， 然 后 再 用 单 引号 括 住 它 。 注意 导 本 本 身 被 包围 在 单 引 号 中 ,这 可 以 防止 
对 shell 特 珠 的 字符 被 解释 . 在 童 引号 对 ( 注 2) 中 的 双 引 号 序列 确保 被 包围 的 参数 
首先 被 shell 求 值 ， 然 后 再 由 sed 对 sed 靶 本 进行 处 理 【 注 3)。 


读 sed 竹本 在 3 个 不 同 的 点 党 试 匹 配 搜索 裤 符 串 ， 每 一 个 都 标 有 用 于 查找 搜索 模式 
的 地 址 。 肢 本 的 第 …-- 行 寻找 在 一 行 上 出 现 搜 索 模 式 的 行 : 


号 忆 误 荆 伺 人 3 


如 果 搜 索 模 式 匹配 这 - 行 ， 那 各 分 支 命令 【没有 标签 ) 就 将 控制 转移 到 脚本 的 底部 
并 打印 该 行 。 使 用 sed 的 上 上 常 的 控制 流 ， 下 一 个 输入 行 被 读 人 模式 空间 ， 并 且 近 制 
返回 到 脚本 的 顶端 。 每 次 尝试 匹配 模式 时 ， 都 可 以 用 相同 的 方式 使 用 分 支 命令 。 


如 果 一 信 输 入 行 不 匹配 这 个 模式 , 则 开始 下 一 个 过 程 来 创建 多 行 模 式 空间 。 新 行 本 
身 可 能 匹配 这 一 搜索 字符 串 。 为 什么 这 一 步 是 必要 的 也 许 并 不 明显 一 一 为 什么 不 
直接 寻 搜 任 何 跨越 两 行 的 榜 式 ? 原因 是 如 果 模 式 实 奈 上 在 第 二 行 被 匹配 , 那么 我 们 
仍然 输出 这 两 行 。 换 名 话说 , 用 户 会 看 到 被 匹配 的 行 前 面 的 行 , 国 而 会 被 它 搞 糊涂 ， 
这 里 的 方法 是 ， 如 果 第 二 行 正 配 模式 ， 则 只 输出 第 二 行 。 


站 
Search Ab 


I 

瑟 

/ 
Next 命 令 将 下 一 个 输入 行 追加 到 模式 空间 . hold 命令 把 两 行 的 模式 空间 复制 到 保持 
空间 . 下 曾 的 动作 将 更 改 模式 空间 ,而 我 们 想 要 保护 原始 内 容 的 完整 。 在 寻找 模式 
之 前 , 我 们 能 用 替换 命令 删除 拒 和 的 换行 符 前 面 的 行 以 及 该 仍 人 的 换行 符 ,。 这 样 数 
有 几 个 原因 ,所 以 我 们 考虑 一 些 可 选择 的 方法 。 你 可 以 编写 -个 模式 ， 它 只 匹配 出 
现在 甬 人 的 换行 符 之 后 的 搜索 模式 





注 2: 卖 际 上 , 这 是 由 单 引号 引用 的 文本 和 双 引 号 引用 的 文 衣 ,以 及 理 多 的 音 引 号 引用 的 文 
这 等 革 事 联 起 来 产生 一 个 频 大 的 单 引导 引用 字符 于 。 在 这 里 Shel 向 导 会 有 帮助 。 


广 3: 还 可 以 使 用 sheH 谈 量 铺 一 系 合 全 传递 绍 sed 脚 本 。 这 有 点 候 过 程 调 用 , 但 它 使 肢 素 阅 
读 起 米 旭 加 国难 。 
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然而 ， 如 果 发 现 “个 匹配 ， 我 们 不 想 打印 整 信 模 式 空 间 ， 只 想 打 印 它 的 第 二 部 分 。 
那么 当 第 二 行 匹配 时 ， 采 用 上 面 的 结构 将 打印 贞 行 。 


你 也 许 想 在 尝试 匹 配 模式 之 前 ,使 用 Delete 命令 删除 模式 空间 中 的 第 - : 行 .Delete 
命令 的 副作用 是 会 更 改 藻 控制 ,重新 从 脚本 顶端 开始 执行 【Delete 命令 可 以 大 胆 地 
使 用 ， 但 是 会 改变 脚本 的 逻辑 )。 


所 以 , 我 们 尝试 匹 配 第 二 行 的 模式 , 并 且 如 果 不 成 功 , 那么 尝试 路 越 两 行进 行 匹 配 : 


己 
宇 AT 
站 有 全 忆 BrCh "AL 


己 
力 
} 


这 里 的 get 命令 从 保持 空间 获取 原始 的 两 行 的 一 个 省 份 ， 并 改 妃 模式 空间 中 处 理 过 
的 行 . 替换 命令 用 一 个 空格 取代 做 和 的 换行 符 和 它 前 面 的 任意 空格 。 然 后 我 们 试 着 
匹配 这 种 模式 . 如 果 严 配 成 功 , 我 们 不 想 打 印 模 式 空间 的 内 容 , 而 是 从 保持 空间 ( 保 
护 了 换行 符 ) 中 得 划 副本 并 打印 它 。 因 此 , 在 转移 到 脚本 的 结尾 过 前 ,get 命令 具 保 
持 空间 获取 备份 。 


只 有 当 模 式 不 匹 息 时 才 执 行 脚本 的 最 后 一 部 分 。 


局 


这 里 的 get 命令 从 保持 空间 获取 保持 换行 符 的 副本 。Delete 命令 员 除 模式 空间 中 的 
第 一 行 并 且 将 控制 转移 回 脚本 的 顶端 。 我 们 只 酬 除 模式 空间 的 第 一 部 分 . 而 不 是 清 
空 它 ， 因 为 在 读 取 另 一 个 输入 行 之 后 ， 有 可 能 要 进行 跨 两 行 的 匹配 。 


下 面 是 程序 在 样本 文件 上 运行 的 结果 : 


本 了 hraBeB “the DECCeauTrB 18 于 DLLOWadL" 日 已 妨 七 村 

工 冯 站 Bterm Is 站 1]1Dwea py 已 NEICWINEE，Lhenm the 让 rocedure 
二 folLewed tor 怪 I1 1ines that ao not match 上 he PatEern . 

外 外 十 所 好 芋 匠 号 区 站 任 避 司 WE 全 工 三 于 操 11owe 忆 only If there 1 no macehn 
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止 如 我 们 在 开始 时 提 和 到 的 那样 ， 编 写 sed 脚本 是 进 行程 序 设 计 的 好 的 开始 , 存 接 下 
来 的 音节 下， 我 们 要 介 络 awk 程序 设计 语言 . 你 将 会 看 到 许多 和 sed 类 似 的 内 容 , 这 
会 使 你 感到 宽慰 , 仁 是 你 也 会 看 到 更 多 用 二 编写 有 用 的 程序 的 结构 。 当 你 开始 用 sed 
完成 更 加 复杂 的 任务 时, 所 编写 的 财 本 会 变 得 令 人 很 玲 理解 .awk 的 优点 2 一 是 , 它 
更 容易 处 理 复 杂 门 题 ， 并 晤 一 旦 你 学 会 了 awk 的 基础 知识 ，awk 脚本 就 很 容易 编号 
和 理解 。 








未 章 内 容 : 第 七 章 
如 机 宇 


Hello World 


e awk 程序 设计 模型 
.Re 写 aWk 


ee 记录 和 字 拭 

@ 昌 表达 式 

。 季 统 变量 

。 关 条 操作 符 和 布尔 操作 
符 

es 和 烙 式 化 打印 

ee 向 牌 本 传递 参数 

”信息 的 检索 


在 序 间 中 曾 提 到 ,本 书 所 摘 述 的 是 PDSIX awk, 也 就 是 说 , 遵循 POSIX 标 准 的 awk 
语言 。 在 深信 介 绍 细节 之 前 ,我 们 先 介 绍 -下 它 的 一 些 历史 。 


早期 的 awk 是 -- 个 很 好 的 小 型 的 语音 。 大 的 在 1978 年 ， 必 首次 出 现在 UNIX 的 第 七 
版 中 ， 随 着 它 的 发 展 和 流行 ， 人 们 开始 使 用 它 来 编写 重要 的 程序 。 


在 1985 年 ，awk 的 原作 者 发 现 ， awk 被 应 用 于 比 他 们 原来 颈 期 的 更 参 的 程序 中 ， 于 
是 他 们 ] 沁 定 改进 这 种 语言 【参阅 第 十 二 章 “awk 的 系列 产品 *， 介绍 原始 的 awk, 以 
及 与 新 版 本 相 比较 它 不 具备 的 所 有 功能 ). 这 个 新 版 本 在 1987 年 发 布 ， 这 -- 报 本 现 . 
在 一 直 应 用 在 Suncs 4.1.x 操作 系统 上 。 


在 1989 年 ,awk 用 于 System VRelease 4， 井 在 一 些小 的 方面 做 了 更 新 【 注 1)。 这 
个 版 本 成 为 POSIX 标 准 中 awk 功能 列表 的 基本 组 成 ，POSIX 解释 了 许多 awk 的 功 
能 ,并 增加 了 CONVEFMT 变量 《将 在 本 章 的 后 面部 分 介绍 )。 


近 





注 1: 汪 加 了 -v 选 硝 以 及 tolower() 和 toupper() 函 数 ， 儿 除了 srand0 和 printft， 这 此 翅 节 
将 在 未 阐 和 凡 后 的 章节 进行 详细 介 经 。 
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当 你 和 在岗 读 余下 的 章节 有 时， 请 你 牢记 术语 awk 是 指 POSIX awk,， 而 不 是 任何 特殊 的 
[其 ， 不 管 是 贝尔 实验 室 的 原始 版 本 ， 还 是 任何 的 其 他 将 在 第 十 一 章 介绍 的 版 本 。 
但 是 ,在 某 些 方 而 不 同 的 版 本 在 性 能 上 有 具有 重要 的 区 别 , 这 些 将 在 介绍 的 主要 部 分 
中 指出 。 


遵守 规则 

要 编写 :个 awk 程序 ,就 必须 熟悉 这 个 工具 的 规则 . 这 些 规 则 艇 了 请 楚 的 规定 ， 可 
以 在 附录 一 “awk 的 快速 参考 ”中 找到 ， 而 不 在 本 章 中 讨论 。 本 章 的 目标 不 是 向 你 
介绍 这 些 规则 ， 而 是 演示 如 何 使 用 这 些 规则 - 用 这 种 方式 ,你 将 会 熟悉 这 种 语言 的 
许多 特征 ,而 且 通 过 看 例子 了 解 肢 本 如 何 工 作 。 有 些 人 喜欢 先 阅读 规则 ， 这 种 方式 
与 使 用 手册 来 学 习 应 用 程序 , 或 通过 浏览 语法 规则 来 学 习 语言 是 一 样 的 , 不 是 一 种 
简单 的 工作 。 然而， 熟练 掌 担 规 则 大 开 始 规范 地 使 用 awk 的 基础 。 但 是 使 用 aw 越 
多 ,其 规则 就 越 快 变 成 根深 莱 因 的 习惯 。 你 应 反复 试验 来 学 习 它 们 【花费 很 长 的 时 
间 来 查找 一 个 简单 的 语 革 错误 ) , 例如 漏 掉 一 个 空 插 或 揪 号 ,这 些 错误 对 长 期 记忆 具 
有 神奇 的 效果 。 因此 学 习 编 扎 脚 本 的 最 好 方法 是 从 编写 开始 , 当 编写 脚本 取得 一 定 
的 进步 时 ， 交 球 附录 二 中 的 规则 〈 节 且 反 复 地 于 它 科 )， 或 者 阅 球 awk 的 手册 ， 避 
者 阅读 《The AWK Programming Languagey 这 本 书 无 疑 都 将 是 有 益 的 。 你 可 以 在 
以 后 再 做 这 些 工 作 。 现 在 证 我 们 开始 吧 。 











Hello, Weorld 


通过 演示 “Hello, World" 这 个 程序 来 介绍 - -种 程序 设计 语言 已 经 成 为 一 种 惯例 。 通 
过 演示 这 个 程序 在 awk 中 如 何 工 作 将 证 明 awk 是 如 何 的 不 寻常 。 实 际 上 ， 有 必要 演 
示 几 种 打印 “Hello, World” 的 不 同方 法 。 


在 第 一 个 例子 中 ， 我 们 创建 了 一 个 文件 ， 命 名 为 tesf， 它 只 包含 一 个 句子 。 这 个 例 
子 是 -个 包含 print 语 名 的 脚本 : 
号 人 Che “七 耻 让 日 斌 了 后 口 二 四 和 七 肌 寺 日 十 生 mCre > 七 如 加 


吕 各 避 区“ 才 梧 工 王 DH “ 革 和 1 工 口 命中 1 相 " 七 已 开 七 
Me]1D， WerlG 
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这 个 脚本 只 有 一 条 包含 在 大 括号 中 语句 。 这 个 操作 对 每 个 输 人 行 执行 print 语 句 。 企 
本 例 中 ，tes 文 件 具 包 信 一行， 内 此 ，print 操作 只 执行 一 次 。 注 意 这 个 输入 行将 被 
读 人 但 没有 被 输出 。 


现在 让 我 们 看 另外 一 个 例子 ,这 里 使 用 一 个 包含 “Hello.Word,” 行 的 文件 。 


叫 “ 呈 所 七 ”七 刀 可 七 也 
HE1ID，WDIT] 
号 有 WK “1BL 寺 mnt 7 七 后 纪 七 
He 号， 刚 CT 


在 这 个 例子 中 ,“Hello,Wortd.” 出 现在 输入 文件 中 , 得 到 了 相同 的 结果 。 因 为 其 中 
的 priat 语 名 没有 参数 , 只 简单 地 输出 每 个 输 人 行 。 如 果 文 件 中 有 其 他 的 输 和 信行 , 它 
们 同样 可 以 被 输出 


这 两 个 例子 都 说 明了 aw 关 是 输入 驱动 的 。 也 就 基 说 , 除非 有 可 以 在 其 上 操作 的 输入 
行 ,， 否则 将 什么 也 不 能 做 。 当 届 用 awk 程序 时 ， 它 将 读 人 所 提供 的 脚本 ， 并 检查 其 
中 的 指令 的 语 闪 .然后 awk 将 对 每 个 输入 行 执行 脚本 申 的 指令 。 因 此 ,如果 没 有 来 
自 文件 中 的 输 和 人行 ， 以 上 的 print 语句 将 不 做 任何 事情 。 


为 了 验证 这 一 点 ， 可 以 输入 第 -- 个 例子 中 的 命令 行 ， 得 忽 略 文件 名 。 你 和 将 发 现 出 于 
awk 期 望 得 到 来 自 键盘 的 输入 ， 所 以 它 将 一 直 等 待 直 到 对 它 提 供 了 输入 : 按 几 次 
RETURN 键 ， 并 用 EOE (大 多 系统 是 用 CTRL- 了 ) 作为 输入 的 结束 标志 。 每 次 按 
RETURN 键 ， 打 印 “Hello,World,” 的 操作 将 被 执行 。 


还 有 男 外 … 种 方法 来 输出 “Hello,weorld” 信息, 并且 awk 不 需要 等 待 输 人 。 这 个 方 
法 的 实现 和 BEGIN 模式 是 相关 的 , BEEGIN 模式 用 于 指定 在 第 一 个 输 和 人 行 读 人 之 前 
要 技 行 动作 。 


乌 EEWK “ 昱 已 台 工 台 《【 呈 芋 二 2 “再 台 L1 品 ， 确 CEr]1Q" 7 
HETIO NGT 1 纪 


awk 打印 这 个 消息 , 然后 退出 程序 。 如 果 一 个 程序 只 有 一 个 BEGIJN 模式 , 并 且 没 有 
其 他 的 语句 ，awk 将 不 处 理 任 何 输 人 文件 。 
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awk 程序 设计 模型 


理解 awk 提供 给 程序 员 的 基 木 模型 是 很 重要 的 。 党 引 awk 比 学 习 其 他 程序 民 计 语言 
更 容易 的 部 分 原 内 ， 号 由 于 awk 为 程序 郧 提供 了 定义 得 当 且 存 用 的 模型 。 





awk 程序 是 由 所 谓 的 证 输入 fmain input) 循环 组 成 的 ， 一 个 循 乓 是 一 个 例 程 ， 心 
将 - 直 重 复 执 行 贞 到 有 -- 些 存在 的 条 件 终 赴 它 。 你 不 必 写 这 个 循环 ， 它 是 现成 的 。 
它 作为 :个 杠 架 存在 , 在 这 个 框架 中 你 编 窟 的 代码 能 够 质 行 。 在 awk 中 的 主 输 和 人 循 
环 是 “个 例 程 , 它 可 以 从 文件 中 读 了 到“ 行 并 使 得 进程 可 以 访问 它 。 你 所 编写 的 处 理 
操作 的 代码 假 刘 有 一 个 可 用 的 输入 行 。 存 其 他 的 程序 设计 语言 中 , 你 必须 建立 一 个 
主 答 入 循 坏 并 将 它 作为 程序 的 :个 组 成 部 分 。 它 必须 打开 一 个 输入 文件 并 一 次 读 入 

行 - 这 并 不 儿 妻 许多 工作 , 也 它 说 明了 基本 的 awk 简化 操作 可 以 使 得 编程 更 容易 。 





主 输入 循环 执行 的 次 数 和 输入 的 行 数 相同 。 就 像 在 “Hello,World,” 例 子 中 所 看 到 
的 ， 这 种 循 乓 仅 当 有 -个 输入 行 时 才 执 行 。 当 役 有 其 他 输入 行 读 人 时 循 环 将 终止 。 


awk 允许 你 编写 两 个 特殊 的 例 程 ， 它们 在 任何 输入 被 读 取 前 和 所 有 输入 都 被 读 取 后 
执行 .它们 是 与 BEGIN 和 END 规则 相关 的 过 程 ， 换 句 话 说, 在 主 输入 循环 执行 前 
和 主 输入 特征 终止 后 你 可 以 做 一 些 处 理 。BEGIN 和 卫 ND 过 程 是 可 选 的 。 


你 可 以 把 awk 有 嘟 木 看 若 由 3 个 主要 部 分 组 成 : 处 理 输 入 前 将 做 的 处 理 , 处 理 输 人 过 
程 中 将 做 的 处 垦 ， 处理 输入 完成 后 做 的 处 理 。 赂 7-1 解释 了 在 awk 靶 本 的 控制 流 中 
这 些 部 分 二 间 的 关系 。 


对 十 这 3 个 组 成 部 分 ， 主 输入 循环 或 称 为 “处 理 过 程 中 将 做 的 处 理 ” 是 主要 的 处 理 
部 分 。 在 十 输 入 循环 中 ， 指 令 被 写成 一 系列 的 模式 /动作 过 程 。 模 式 是 用 于 而 试 输 
入 行 的 规则 ,以 确定 动作 是 否 将 应 用 于 这 些 输 人 行 - 我 们 将 看 到 的 操作 可 能 很 复杂 ， 
它 由 语 名 、 畏 数 和 表达 式 组 成 。 





要 记 住 的 主要 事情 是 每 个 模式 /操作 过 程 位 于 主 输入 循 斌 中 , 且 俩 南 读 中 输入 行 。 所 
编号 的 过 程 将 应 用 二 每 个 输入 行 ， 而 且 一 次 一 行 。 
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图 。 均 所 有 的 输入 完成 后 执行 第 


个 例 程 














图 7-1: awk 脚本 中 的 流程 和 控制 


模式 匹配 


“Hello,Warld.” 程 序 没有 演示 出 模式 匹配 规则 的 作用 .在 永 节 中 , 我 们 和 将 看 到 许多 
小 的 ， 甚 全 币 有 什么 意义 的 例子 ， 但 它们 能 名 验证 awk 程序 脚本 的 主要 特点 。 





当 awk 读 和 人 -输入 行 时 , 沁 试 蜀 匹 配 脚本 中 的 每 个 模式 匹配 规则 。 只 有 与 一 个 特定 
的 模式 相 匹配 的 输入 行 才 能 成 为 操作 对 象 , 如 果 没 有 指定 操作 , 与 模式 相 匹配 的 输 
信行 将 被 打印 出 来 《执行 打印 语句 是 一 个 默认 操作 }。 和 参阅 下 面 的 脚本 : 


anSr rprint "This ig 立 blLamnk 1ine-' 1} 


读 丢 本 表示 : 如 果 和 输入 行为 室 ， 那么 打印 “Ti 站 abia 殉 De”"。 这 里 的 模式 为 一 
个 正则 表达 式 ， 用 来 表示 一 个 空 行 。 这 个 处 理 和 我 们 以 前 所 见 到 的 一 拌 ， 只 包含 一 
条 Print 语句 。 


如 果 我 们 将 这 个 脚本 坡 在 -个 称 为 awkscr 的 文件 中 ,并 使 用 名 为 test 的 输入 文件 ， 
这 个 文件 中 包含 3 个 空 行 ， 然 后 使 下 面 的 命令 执行 这 个 脚本 : 
忆 awk -上 E awkeBcz 七 已 EL 


TYS 二 和 互 BTanhk 工 ine . 
Thia is 站 hLankKk Ime， 
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Thls :5  Dlank lne。 
(从 这 里 开始 ， 我 们 特 假 定 脚 本 放 存 一 信 单 独 的 文件 中 ， 并 使 用 -命令 行 和 多 项 来 调 
用 。) 这 个 结果 告诉 我 们 在 test 中 有 3 个 空 行 ， 脚 本 忽略 了 非 空 的 行 。 
给 以 上 的 脚本 上 冉 如 入 几 个 新 的 规则 .。 钢 在 的 脚本 要 对 和 输入 进行 分 析 , 并 将 它们 归 业 
为 整数 、 字 符 串 或 空 行 。 


# 测试 “下 是 整数 、 字 符 串 还 是 举行 。 


7 [了 - 马 ] +7 { Princ "Thar 15 an integer” } 
人 有 TELL This js 有 Sring” 】} 
(1 Print "Thie s 站 DankK 1irmne." 


总 的 思想 是 ， 如 果 一 个 输入 行 能 够 和 任何 一 个 模式 匹配 ， 那 么 就 执行 相关 的 print 
语句 。 元 字符 + 是 正则 表达 式 元 字 管 扩展 集中 的 部分, 它 表示 “一 个 或 更 多 ", 因 
此 , 包含 一 个 或 多 个 数字 序列 的 行将 破 看 做 是 一 个 整数 。 以 下 是 一 个 使 用 标准 输入 
的 运行 示例 ; 


上 awkK - 王 AwKCT 

科 

Ta 工 汪 五 忆 了 并 可 T 
七 

三 守 LS 上 忌 Strin 可 
妈 了 

七 忆 志 丰 工 呈 已 有 mi 上 它 竹 所 
this 守 S 已 SrimG 
RETURM 

This is 总 DLIank 1ire 
六 业 

下 及 站 工 汪 Bam meSET 
人 了 RT -站 

S 


注意 ， 输 入“4T” 被 标识 为 既是 几 数 又 是 字符 串 。-- 行 可 以 匹配 一 条 或 多 条 规则 。 
你 可 以 编号 一 个 更 严格 的 规则 以 防止 -- 行 与 多 条 规则 相 匹 配 。 也 可 以 编写 操作 来 跳 
过 脚本 中 的 其 他 部 分 。 





我 们 将 通过 这 “ 章 来 解释 模式 匹配 规则 的 应 用 。， 


程序 脚本 的 注释 


在 写 脚 本 时 溧 加 注释 是 -个 好 的 习惯 。 注 释 以 字符 “#” 开始 ， 以 换行 特 结束 。 和 
se 不同，awk 允许 在 程序 的 任何 地 方 琼 加 注 酸 。 
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注意 : 如 果 以 命令 行 的 方式 提供 awk 程 语 , 而 不 是 将 它 写 人 一 个 文件 中 , 那么 在 程序 的 任何 地 
方 都 不 能 用 单 引 号 ， 客 则 shell 将 对 它 进行 解释 而 导致 错误 . 





当 我 们 开始 编写 脚本 时 ， 我 们 将 用 注释 来 对 脚本 进行 描述 : 


# Plank-awk -- 为 秆 个 空 行 盯 印 谢 好 。 

”ng ft Bea2zr "This 1S 己 芒 1anK 132ne- 
注释 措 出 了 脚本 的 名 字 是 blank.awk， 并 向 宪 地 描述 了 脚本 的 功能 。 对 于 较 长 的 贿 
本 , 注释 可 以 用 来 描述 输入 文件 的 预期 的 结构 。 例如， 在 下 - : 节 ,， 我 们 将 学 习 编 写 
脚本 来 读 到 包含 姓名 和 电话 号 码 的 文件 ， 这 个 程序 的 介绍 性 注释 如 下 : 


# blLoclklisr.awk -- 林 印 形 柄 中 的 名 字 和 地 址 。 
# 宇 息 : 名 字 、 公 可 街道 、 城市. 州 和 邮编 . 电话 


将 这 些 入 息 财 入 不 程序 脚本 中 是 很 有 用 的 , 因为 除非 输入 文件 的 结构 和 所 编写 的 程 
序 脚 本 中 的 结构 一 致 ， 否 则 程序 将 无 法 工作 。 


二 mn EL 

记录 和 字段 

ay 引 假 设 它 的 输入 是 有 结构 的 , 而 不 只 是 一 串 无 规则 的 字符 。 在 最 简单 的 情况 下 , 它 
将 每 个 输入 行 作 为 一 条 记录 , 而 将 由 空格 或 制 表 符 分 隔 的 单词 作为 字段 【用 来 分 隔 
字 朗 的 字符 被 称 为 分 隔 符 )。 下 面 的 mames 文 件 中 的 记录 有 3 个 字段 ,由 一 个 空格 或 
制 表 符 进行 分 晤 。 


John Repbinseonm 5665-555-1111 


连续 的 两 个 或 多 个 空格 和 /7 或 制 表 符 被 作为 一 个 分 障 符 。 


字段 的 引用 和 分 离 

awk 人 允许 使 用 字段 操作 符 $ 来 指定 字段 。 在 该 操作 符 后 面 跟着 一 个 数字 或 变量 ,用 
于 标识 字段 的 位 置 。“$1” 表 示 第 一 个 字段 ,“$2” 表 示 第 二 个 字段 等 等 。“$0"” 表 
示 个 输入 记录 。 下 面 的 例子 显示 了 第 一 个 字段 是 姓 ， 第 二 个 字段 是 名 字 ， 后 面 是 
电话 号 码 。 
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号 awkK 了 ff 有 Tin 窜 癌 二 让 > 了 DameR 
Repinmnson  UJcan 吕 6b-S5no-1117 


$1 表 未 名 字 , $2 表 示 姓 ,而 33 表示 电 话 号 码 。print 语句 中 分 申 每 个 参数 的 逗号 使 
得 输出 的 各 值 之 间 有 一 个 空格 【随后 , 我 们 将 讨论 输出 字段 分 隔 符 【OFES )， 它 的 值 
中 输出 的 逗号 默认 为 空 构 )。 在 这 个 例子 中 ， “个 输入 行 形成 包含 3 个 字段 的 记录 : 
在 名 字 和 姓 之 间 有 了 一 个 空格 ， 在 姓 和 电话 号 码 之 间 有 一 个 制 表 符 。 如 果 想 将 姓 和 
名 字 结 合 起 来 作为 一 个 字段 ， 可 以 通过 显 式 地 指定 字段 分 隔 符 使 得 只 识别 制 表 符 。 
这 样 ，awkE 将 只 识别 该 记录 中 的 两 个 字段 。 


可 以 用 任何 计算 值 为 整数 的 表达 式 来 表示 一 个 字段 ， 而 不 只 是 用 数字 和 变量 。 


echo abe | awk "BEGIN { one = 1i twog = 3 》 
> 人 BELL 让 (CDB + tw 
疡 


可 以 在 命令 行 中 使 用 -选项 改变 字段 分 隔 符 , 它 后 面 跟着 (或 者 紧 跟 , 或 者 有 空白 ) 
分 隔 符 。 下 面 的 例子 将 字段 分 隔 符 修 改 为 制 表 符 。 


SS mWK ~" At rr DLL 号 2) 7 ammeg 
65656-555-3111 


“At” 是 表示 一 个 实际 的 制 表 符 的 转 义 序列 《在 下 面 讨论 }， 它 应 由 单 引 号 或 双 引 叶 
包围 着 。 


下 面 的 一 个 地 址 记录 中 的 字段 是 册 逗 号 分 陪 的 。 


JBhm Robpinmnsony Kocren In 938 th 在 V 记 - ， 瑟 心 BEDD NM 站 二 六 丰 ， 右 生生 一 口 汪 8 了 
Ehy119 位 和 Spam CEVE CDT 和 ,3 由 呈 丰 二 口 六 we 在 ih 所 DDTY MA 昌 1 息 让 1 ， 息 + 二- 让 汪 问 


awK 程序 可 以 用 块 格式 打印 姓名 和 地 址 . 


# biocklist,awk -- 用 块 桥 式 打印 尾 名 和 地 址 
# 输入 文件 一 名 字 ， 公司 ， 街 道 、 城市， 州 和 邮编 ， 电 话 
PIInL “"” 间 DUEBUt LanK 工 让 ne 
PEImE S1 # mame 
BEInE S2 井 omRarmY 
Prinmr 3 厅 马上 蕊 所 也 上 
站 基 荆 mt 由， RS 间 EY， 争 七 误 上 全 忆 工 御 
] 


第 一 个 print 语句 指定 一 个 空 串 【”" )《 记 住 print 本 身 输 出 当前 行 )。 这 种 安排 使 得 
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在 报告 中 的 记录 由 空 格 局 开 , 我 们 可 以 执行 这 个 脚本 并 使 用 下 面 的 命令 指定 字段 分 
隔 符 为 政 号 : 


amWR -FE -上 DPDlocklzSE awkK mameS 
产生 的 结果 如 下 : 


Jobhn RbPinsonm 
Korenm IDC . 

37E th 三 vB， 
BOzEon MAR 176 


Phy1L1iS ChaPmac 
GVwE CoDTP ， 

34 Sea _ Drive 
ameSslpury MA 听 1881 


在 脚本 中 指定 域 分 隔 符 是 - -个 好 的 习惯 并 且 是 非常 方便 的 . 可 以 通过 定 交 系统 变量 
FS 来 改变 字段 分 隔 符 。 因 为 这 必须 在 读 取 第 - ' 个 输入 行 之 前 执行 ， 所 以 必须 在 由 
BEGIN 规则 控制 的 操作 中 指定 这 个 变量 。 


BEGIN 1 FS = 
我 们 现在 在 程序 中 使 用 它 来 打印 出 姓名 和 电话 码 。 


# FEhonellst.awk -- 打印 姓名 和 电话 号 友 
# 和 输 人 文件 一 名 字 . 公 喇 、 街 道 、 城 市 、. 州 和 邮编 、 电 话 
BEGIN { FS - "，," } # 用 返 妃 分 耳闻 段 


1 DPIFIDtL 8 "SS6 


注意 ， 我们 在 脚 木 中 使 用 空 行 来 改善 可 读 人 性。 在 Print 雍和 句 的 两 个 输出 字段 之 间 播 
人 逗号 和 一 个 室 格 。 这 个 程序 脚本 可 以 通过 以 下 的 命令 行 来 执行 : 
本 WK ~ 下 入 hh 六 m 必 1 主 日 凸 . 本 Wi 攻 克 总 白 


Jehn RDDinmscim， 避 9 下 9 了 
Bhyl1iIs Chapman， 吕 79-0900 


这 些 给 了 你 一 个 关 寺 如 何 使 用 awk, 来 处 理 可 识别 的 结构 化 数据 的 基本 概念 。 这 个 
程序 脚本 用 来 输出 所 有 的 输 人 行 ,但 我 们 可 以 编写 匹配 规则 来 修改 这 个 操作 使 得 只 
打印 出 特定 的 名 字 或 地 址 . 因此 ， 如 果 我 们 有 一 个 长 的 名 字 列表 , 我 们 可 以 仅 选择 
居住 在 特定 州 的 和 人名。 我 们 可 以 编写 为 : 
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PEIIIL 总 1 "， 昌 下 


这 里 的 MA 与 马 陕 诸 塞 州 邮政 局 的 缩 扎 相 此 配 。 然 而 ，MA 也 可 能 与 一 个 公 可 的 名 
字 或 其 他 地 方 的 名 字 相 瑟 配 , 其 中 在 这 些 公 司 的 名 字 或 其 他 地 方 的 名 字 中 包 售 字母 
“MA”。 我们 可 以 油 试 下 配 指定 的 字段 。 使 用 (【-) 棵 作 符 可 以 王 试 :个 字段 的 生 则 
表达 式 : 


85 一 2， 1 Prinr SS 
可 以 使 用 组 全 符号 《1!) 来 反 转 这 个 规则 的 意 交 。 
S5 1 Ma， 人 PrnE EL 1” 


这 个 规则 将 与 所 有 其 第 五 个 字段 不 包含 “MA” 的 记录 相 匹 配 。 .个 更 有 挑战 性 的 模 
式 丐 配 是 促 与 长 途 电话 号 码 相 匹 配 。 下 面 的 止 则 表达 式 查找 .个 区 域 代 码 。 





86 ~ yl13f-|D)? 20-9j+3(DG1-)>00-9]+-[O-9]+7 





这 个 规则 和 下 列 的 形式 相 瞻 配 : 


7 了 07-73-UDBD 

《了 了) 了 生生 一 站 站 
(02774440D0R 
1-707-724-006D0 
1 7 了 07-724-D000D 
117071324-000 


这 个 止 则 表达 式 可 以 分 息 进 行 解 县。“1?4 ”表示 出 现 零 个 或 一 个 1;“(-1D)? ” 表 
示 在 随后 的 位 置 上 查找 一 个 连 字符 或 一 个 空格 ,或 什么 也 没有 ; “M?” 吉 示 查找 堆 
个 或 一 个 左 括号 ; 反 斜 杠 能 够 防止 将 “(” 解 释 为 用 于 分 组 的 元 字符 ;“[0-9j+” 表 
示 查 找 一 仿 或 多 个 数字 ; 注意 我 们 采用 了 简便 的 方法 ， 仅 指定 到 多 位 数字 ， 而 不 
是 精确 地 指定 3 位 数字 。 在 随后 的 位 置 ， 我 们 查找 一 个 可 选 的 右 括号 ， 接 着 查找 一 
个 空格 或 一 个 连 字 符 , 或 什么 也 没有 。 然 后 用 “[0-~9]+” 查 找 一 到 多 位 数字 , 随后 
跟 一 个 连 字 符 ， 最 后 跟 - -到 多 位 数字 。 





字段 的 划分 : 完整 的 问题 

可 以 使 用 3 个 完全 不 同 的 方 站 使 awk 分 隔 宇 段 。 第 一 个 方法 是 用 空白 字符 来 分 隔 字 
眉 。 要 实现 这 种 方法 ,可 和 将 FS 设置 为 一 个 空格 。 在 这 种 情况 下 , 记录 的 前 导 空 白字 
符 和 结尾 空白 字符 (空格 和 /或 制 表 符 ) 将 被 忽略 。 并 且 字 段 用 空格 和 /或 制 表 位 来 
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分 隔 。 央 为 FS 的 黑 认 值 为 -- 个 宰 格 ， 所 以 这 也 是 道 常情 况 下 awk 将 记录 划分 为 字 
段 的 方法 。 

第 一 个 方 活 是 使 用 此 他 单 今 字符 来 分 隔 字 段 。 例 如 , awk 程序 经 常 使 用 “: ”作为 分 
隔 符 来 访问 UNIXAercjpasswd 文 件 . 当 ES 表 示 任 何 单个 字符 时 , 在 这 个 字符 出 现 的 
任何 地 方 部 将 分 隔 出 男 外 一 个 字段 。 如 果 出 现 两 个 连续 的 分 隔 符 ,在 它们 之 间 的 字 
段 值 为 空 帅 。 

最 后 “种 方法 是 ,如 果 你 设置 了 不 正 一 个 字符 作为 字段 分 隔 符 , 它 将 被 作为 一 个 正 
则 才 达 式 来 解释 ， 也 就 是 说 ,字段 分 隔 符 将 是 与 正则 表达 式 匹 配 的 “最 左边 最 长 的 
非 空 的 不 重 改 的 ” 子 串 【 注 2)。( “null 字符 串 ” 是 一 个 技术 术语 ， 我 们 将 它 定 匀 为 
“ 窗 的 字符 则 "。) 你 可 以 发 现 以 下 各 种 不 同 表示 之 间 的 区 剂 : 


这 个 命令 行将 每 个 制 表 符 作 为 -个 字段 分 隔 符 ， 而 : 


Y8S = "tv 


这 个 命令 行 表示 用 一 个 或 多 个 制 表 符 来 分 隔 字 段 。 使 用 第 一 种 定 交 ,下 面 的 一 行 可 
以 分 为 了 3 个 字 跨 : 


己 PPew 十 本 时 


而 使 用 第 二 种 定 浆 - 只熊 分隔 为 两 个 字段 。 可 以 使 用 -个 正则 表达 式 指 定 几 个 字符 
作为 分 隔 符 : 


在 括号 中 的 任何 3 个 字符 之 一 都 可 以 被 解释 为 字段 分 辣 符 ， 


表达 式 
可 以 使 用 表达 式 来 存储 、 操作 和 检索 数据 . 这 些 操作 与 在 sed 中 的 有 很 大 的 区 别 , 但 
这 是 大 多 数 程 序 设计 语言 所 有 具有 的 共同 特性 。 


广 衬 : 《The AWK ProgTamming Langtuagey[Aho], 革 60 页 。 
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-个 表达 式 通 过 计算 返回 : ` 个 值 。 表 达 式 由 数字 和 字符 串 常 量 、 变 量 、 操 作 符 、 国 
数 和 正则 表达 点 组 成 ,我们 在 第 二 章 “ 了 解 基本 操作 ”中 详细 介绍 了 正则 表达 式 ， 
并 在 附 录 二 中 对 它们 做 了 总 结 。 国 数 将 在 第 九 章 “ 明 数 ”中 完整 地 介绍 , 在 这 一 部 
分 ， 我 们 将 学习 由 常量 、 变 量 和 操作 符 组 成 的 表达 式 。 


常量 有 两 种 类 型 : 字符 串 型 或 数字 型 【"red'" 或 1)。 字 符 串 在 表达 式 中 必须 用 引号 
括 起 来 。 在 字符 串 中 可 以 使 用 在 表 7-1 中 列 出 的 转交 序列 ， 











表 7-1: 转 义 序列 

序列 描述 ， 

1 报 敖 字符 ,通常 是 ASCII BEL 富 符 
业 遂 格 铀 

导 走 纸 符 

全 核 行 符 

YY 回 车 

忒 求 平 制 表 符 

AY 垂直 制 表 符 

VGGG 将 字符 表示 为 1 到 3 位 八进制 值 
WeRex 将 字符 表示 为 十 六 进 制 值 * 

A 任何 需要 字面 表示 的 字符 <c《〈 例 站，"fem )， 





a， POSIXX 没 有 担 供 “Ax "， 但 它 通常 是 可 用 的 。 


b 和 ANSIC 一 料 ， 当 你 在 没 有 列 在 这 个 表 中 的 任 赤 学 兰 当 前 置 一 个 反 奸 本 时 ，POSI 人 保 
留 这 些 字 兰 为 未 定义 。 在 大 多 数 瞩 束 的 awk 中 ， 伴 避 会 直接 得 到 那个 宇 疗 ， 


变量 是 引用 值 的 标识 符 。 定 义 变 最 只 需要 为 它 定 义 -个 名 字 并 将 数据 赋 给 它 即 可 ， 
变量 名 只 能 由 说 母 、 数字 和 下 划 线 组 成 ,而 且 不 能 以 数字 开头 。 变 量 名 的 大 小 号 很 
重要 :; 8alary 和 salary 是 两 个 不 同 的 变量 . 变量 不 必 进 行 说 时 , 你 不 必 告 诉 awk 什 
么 类 型 的 数据 将 存储 在 一 个 变量 中 。 每 个 变量 有 :个 字符 串 型 值 和 数字 型 值 ，awk 
能 够 根据 表达 式 的 前 后 关系 来 选择 合适 的 值 (不 包含 数字 的 字符 串 值 为 0)。 变 量 不 
必 初 始 化 。awk 自动 将 它们 初始 化 为 空 字符 串 ， 如 果 作 为 数字 ， 它 的 值 为 0。 下 面 
的 袁 达 式 表 示 将 - -个 值 赋 给 x: 


其 = 荆 
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x 是 变量 的 名 宇 ， = 基 一 个 贼 秆 操 作 符 ，1 是 - -个 数字 常量 。 
下 面 的 表达 式 表示 将 字符 串 “Hello” 赋 给 z: 

z = 'Helio' 
空格 是 字符 串 连 接 操作 符 ， 表 达 式 : 

z = "Hello” "worle， 


将 两 信 字 符 串 连接 在 一 起 ， 并 将 结果 “HelloWorld” 赋 给 变量 z。 


美元 符号 ($) 是 引用 字 乱 操作 符 。 下 面 的 表达 式 表示 把 当前 输 人 记录 的 第 一 个 字段 


的 值 赋予 变量 w: 
WwW = 31 


多 种 操作 符 可 以 用 在 表达 式 中 。 表 ?7.2 中 列 出 了 算术 操作 符 。 


表 7-2; 算术 操作 符 
操作 答 | 措 迄 
+ 加 

碱 
机 乘 
7 除 
入 取 模 
< 取 兰 
中 衬 取 竹 = 








a， 这 是 一 个 普通 扩 括 式 ， 不 在 PDSIX 标准 中 , 在 系统 文档 中 也 通常 没有 。 因 此， 其 使 用 是 不 


可 和 椒 植 的。 


一 旦 变 笃 被 赋予 了 一 个 值 ， 那么 就 可 以 用 这 个 变量 名 来 引用 这 个 值 . 下面 的 表达 式 


表示 将 变量 xz 的 慎 和 1 相 加 并 将 结果 赋 给 变量 7: 
站 =X+1 


即 计算 x 的 值 ， 使 它 如 1， 并 将 结果 赋 给 变量 了 。 语 名 : 
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吧 19nL 了 
打印 了 的 值 。 如 果 下 面 的 一 系列 语句 出 现在 脚本 中 : 


天 一 工 
YY= 区 1 
DrInmE Y 


那么 y 的 值 为 2。 
我 们 可 以 将 这 3 个 请 名 减少 为 两 个 : 


基 = 工 
BrinE 区 + 工 


注意 ，print 语句 后 面 的 x 的 值 却 仍 为 1。 我 们 设 有 改变 x 的 值 ， 我 们 只 是 将 它 和 1 
相 加 并 打印 结果 。 换 名 话说 ， 如 果 第 三 个 语句 是 print x， 那 么 将 输出 1。 实际 上 ， 
如 果 我 们 想 将 工 的 值 增加 , 我 们 可 以 用 赋值 操作 符 +=。 这 个 操作 符 组 舍 了 两 个 操作 
等: 它 将 1 和 x 的 值 相 加 并 将 结果 赋 给 zx. 大 ?7-3 列 出 了 awk 表达 式 中 的 赋值 操作 符 。 








表 7-3: 筷 值 操作 符 

操作 符 [定义 

十 + 变量 如 1 

-- 变量 减 1 

+= 将 加 的 结果 赋 给 变量 
-= 将 减 的 结果 赋 给 变 最 
“一 将 乘 的 结果 缺 给 变量 
/= 将 除 的 结果 赋 给 变量 

名 = 将 取 模 的 结果 赋 给 变量 
生 将 取笑 的 结果 赋 给 变量 
站 将 取笑 的 结果 赋 给 变量 * 





a 和 给 一样， 这 是 一 个 普通 扩 磺 式 ， 它 型 是 不 可 移植 的 ， 


下 面 的 例子 用 于 计算 - ' 个 文件 中 空 行 的 教 目 ， 


# 统计 空 行 数 
2 

Frint x += 工 
】 
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虽然 这 里 涝 有 为 变量 x 赋 初 值 ， 但 在 遇 到 第 … 个 空 行 之 前 它 的 值 - 直 为 0。 表达 式 
X+=1 在 每 次 遇 到 空 行 时 进行 求 值 并 将 六 的 值 增加 1。print 语 铝 打印 表达 式 返 回 的 
值 . 因为 我 们 在 冰 到 每 个 空 行 时 都 执行 print 诸 句 ， 所 以 我 们 得 到 了 空 行 数 的 个 
连续 值 。 





表达 式 可 以 表示 为 不 同形 式 ， 有 些 和 其 他 相 比 更 简洁 。 表 达 式 x+=l 比 等 价 的 表达 
式 ” xX=x+1 更 简 宪 。 但 这 两 个 都 没有 下 看 这 个 袁 达 式 简 洁 : 


“++” 是 递增 操作 符 《〈“--” 是 赐 减 操作 符 )。 表 运 式 每 计算 “次 变 莽 的 值 就 增加 上 。 


递增 和 递减 操作 符 可 以 出 现在 操作 数 的 任何 - 边 , 与 前 缀 或 后 绥 操 作 符 一 样 . 位 置 
不 同 可 以 得 到 不 同 的 计算 结果 ， 





:4X 在 下 四 结果 前 递增 x 的 值 【前 刹 ) 
蕊 = 十 在 反思 结果 后 递增 x 的 值 【 后 缓 ) 


例如 ， 如 果 将 以 上 例子 汝 为 ; 


AS 
BELL + 二 


了 
当 遇 到 第 一 个 空 行 时 ， 表 达 式 返回 的 值 为 “9” ,过 到 第 二 个 空 行 时 返回 值 为 “1"， 
依次 类 推 。 如 果 将 递增 操作 符 放置 于 x 的 前 面 ， 当 表达 式 第 一 次 计算 后 ， 返 加 的 值 
为 “1"。 


下 面 我 们 在 上 例 中 使 用 递增 表达 式 . 另 外 ,在 每 歌 遇 到 空 行 时 不 再 打印 变 行 的 教 值 ， 
而 是 计算 所 有 空 行 的 值 后 才 打印 空 行 的 总 数 。 在 END 模式 中 放置 priat 语 句 ， 当 读 
完 节 后 一 个 空 行 后 打印 乏 的 值 . 


# 统计 空 行 表 
0 村 
上 二 六 
1 
ENT1 
SEE 区 
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S aawW 区 -上 aWKSCLE 七 ee 
了 


程序 输出 了 空 行 的 数 晶 


计算 学 生 的 平均 成 绩 
让 我 们 来 看 另 “个 例子 ,其 中 先 对- -系列 学 生 的 成 绩 进行 相 加 ,然后 计算 其 平均 值 。 
下 面 是 输入 文件 的 具体 数据 ; 


Uehm 85 93 78 94 中 让 
anqdrea 89 90 35 890 且 生 
Jasper 8 B3 0 92 8834 


在 学 生 的 姓名 后 面 有 5 个 成 绩 。 下 面 的 脚本 将 给 出 每 个 学 生 的 平均 成 绩 ， 
# 未 5 全 成绩 的 小 地 | 值 
{ tekcal - Sa2 + S3 1 84 1 8S5 566 


av 后 = Lotal ” 避 
PrInt 8 ，av 宫 】 


该 脚本 将 第 二 到 第 六 个 字段 相 加 得 到 5 个 成 绩 的 总 和 。 将 total 的 值 除 以 S$ 并 将 结果 
赋 给 变量 avyg (7 是 除法 操作 符 )。print 语 句 打印 学 生 的 姓名 和 平均 成 绩 . 漂 音 我 
们 可 以 省 略 向 ayg 冉 值 而 将 计算 平均 成 绩 作 为 print 语 铝 的 一 部 分 ， 如 下 : 


BPIiInL S1， 上 aotal ”与 


这 个 穆 序 使 我 们 了 解 了 存 awk 中 编写 程序 是 如 此 简单 .awk 将 输入 解析 成 字段 和 记 
孙 。 你 不 用 去 读 单独 的 字符 和 声明 数据 类 型 。awk 将 自动 赵 你 做 这 些 工作 ， 
在 样本 数据 上 运行 以 上 脚本 ， 计 算出 学 生 的 平均 成 绩 如 下 : 


S 本 WK -于 可 工 呈 可 日 日 .mWIC 休 王 只 本 志良 
john 87.4 

已 ILIB 日 丰 

了 asPper 85. 叱 


系统 变量 


awk 中 有 许多 系统 变量 或 内 置 变量 。awk 有 两 种 类 型 的 系统 变量 。 第 一 种 类 型 定义 
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的 变量 黑 认 值 可 以 改变 ,例如 默认 的 字段 和 记录 分 跨 符 。 第 一 种 类型 定 藉 的 变量 的 
值 可 用 十 报告 或 数据 处 理 中 。 例如 当前 记录 中 字段 的 数量 ， 当 前 记录 的 数量 等 。 这 
些 让 以 也 awK 牟 动 更 新 ， 例 如 ， 当 前 记录 的 编号 和 输入 文件 名 。 


有 有- -组 软 认 值 会 影响 对 记录 和 宇 段 的 输入 和 输出 的 识别 .系统 变 量 BS 定 浆 字 眉 分 隔 
符 . 它 的 对 认 值 为 ' 个 空格 ， 这 将 提示 awk 可 以 用 车 于 个 空格 和 /7 或 制 表 符 来 分 隔 
字段 。FS 可 以 被 设置 为 任何 单独 的 字 香 或 一 个 正则 表达 式 , 前 面 . 我 们 将 分 隔 符 改 
变 为 逼 号， 为 的 是 读 取 “个 名 字 和 地 址 的 列表 .。 


和 FS 等 效 的 输出 是 OFS， 它 的 默认 值 为 一 个 空格 。 我 们 将 看 到 -个 例子 来 简单 地 
重新 定 久 中 FS。 


awk 将 变 显 NF 定 习 为 当前 输入 记录 的 字段 个 数 。 改 变 NF 的 值 念 有 副作用 。 当 如 
{ 字 段 ) 和 NE 被 改变 时 将 产生 令 人 费解 的 相互 作用 ， 尤 其 是 当 NF 减 小 时 ( 注 3)。 
增加 NEF 值 会 剑 建 新 的 《 空 的 ) 字 眉 ， 并 重新 建立 和 ,字段 由 OFS 的 值 来 分 梧 。 在 
NE 减 小 的 情况 下 ，gawk 和 mawKk 重新 建立 记录 ， 超 过 新 的 NF 值 的 字段 被 设置 为 
一 个 空 字 符 串 ，Bell Labs awk 没有 改变 特 、 


avwX 还 定义 了 记录 分 隔 符 RS 为 一 个 换行 符 , RS 有 -点 鲍 外 , 它 是 awk 仅仅 注意 它 
的 值 的 首 宇 符 的 惟一 变量 。 


和 下 S 输出 等 价 的 是 DRS， 它 的 软 认 值 也 是 - ' 个 换行 符 。 在 下 一 部 分 “处 理 多 行 记 
录 ” 中 , 我 们 将 解释 如 何 改变 记录 分 隔 符 的 默认 值 。awk 设置 变量 N 了 为 当前 输 人 
记录 的 编号 。 它 要 以 用 来 给 列表 中 的 记录 编号 。 变量 FIELENAMBE 中 包含 了 当前 输 
人 文件 的 名 称 . 当 应 用 多 个 输入 文件 时 , 变量 ENR 被 用 来 形 示 与 当前 输入 文件 相关 
的 当前 记录 的 代码 。 


通 党 情况 下 ,因为 希望 在 读 人 第 一 个 输 人 行 之 前 设置 字段 和 记录 分 隔 符 的 值 ， 所 以 
可 以 在 BYGIN 过 程 中 定义 它们 。 然而 , 也 可 以 在 竹本 的 任何 位 置 重 定义 它们 的 值 ， 
在 POSIX awk 中 为 8S 赋值 不 影响 当前 的 输 和 信行 ， 它 仅 影响 下 一 个 输 人 行 





注 3: 根 不 幸 ，POSIX 标准 在 这 一 点 上 并 没有 提供 应 有 的 摊 助 。 


Treerumnmialariherdreerrree 广 -ri 一 一、 -一 一- 
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注意 : 在 1996 华 6 月 以 前 的 Be Labs awk 版 本 中 ，UNI 天 的 awk 版 本 在 交点 上 役 有 遵守 POSTIX 
的 标准 - 在 这 些 版 未 中 , 如 果 还 役 有 引用 -个 单 独 的 字 慨 ,并 将 字段 分 隔 符 设 袖 为 不 同 
的 值 , 那么 当前 输入 行将 使 用 FS 的 新 值 分 隔 字 段 . 网 此 ,你 诺 该 晋 研 你 的 awk 的 性 能 ， 
如 果 可 能 ， 将 awk 开 缀 为 新 的 版 本 ， 





最 后 , POSIX 增加 了 -个 新 的 变量 CONYEFMT，, 它 用 来 控制 数字 到 字符 串 的 转换 。 


例如 : 


St -5.3P) 3 CE waluc' 


这 里 的 数字 表达 式 5.5+3.2 (结果 是 8.7) 的 值 ， 必 须 在 它 害 用 于 字符 串 的 连接 之 前 
转换 为 - -个 字符 串 。CONYFMT 控 制 这 种 转换 ， 它 的 默认 值 为 “名 -68”， 这 是 一 个 
用 于 浮 点 型 数据 的 printf 风格 的 格式 说 明 . 例如 , 将 CONYEFMT 改 变 为 “%d”,， 将 
使 所 有 的 数字 作为 整数 转变 为 字符 晶 。 在 POSIX 标准 之 前 ，amwk 司 用 DEFMT 来 实 
现 这 个 动能 。OFMYT 可 以 做 相同 的 工作 , 但 是 控制 执行 print 语 名 时 进行 数据 有 的 转 
换 。POSIX 委 员 会 想 将 输出 转换 的 任务 从 简单 的 字符 串 转换 中 独立 出 来 。 注意, 束 
数 转 换 为 字符 串 时 总 是 作为 整数 看 待 ， 而 禁 管 CONVYEMT 和 OFMT 的 值 是 什么 。 


现在 我 们 来 看 一 些 例 了 ， 它 们 以 变量 六 开头 。 将 前 面 计 算 平 成 绩 的 脚 束 中 的 
print 语句 修改 为 : 


PITILmE NR " .8S1，awg 
运行 修改 过 的 脚本 输出 如 下 结果 : 


TI， Tohnl SS? 
2， mnGrea 上 各 
3， 了 JasDeTr 虽 5 - 折 


当 读 入 最 后 … 行 后 ，NF 的 值 是 读 人 的 输入 记录 的 个 数 。 它 可 用 于 下 MD 过 程 中 来 产 
生 总 结 报告 。 下 面 是 phonelistawk 脚本 修改 过 的 版 本 ， 


井 phoneligty awk -- 拖 印 名 字 悉 电 话 只 由 
# 输入 文件 一 名 宇 、 公 可 大道 .城市 ， 州 和 邮编 、 电 话 
BEGIN LS = "，*”】} 半 用 逗号 分 隔 衬 段 
1 ReinE 有 1 ”6 
END : EdiInt " 
BeiLnL NMR，“ ecorGes DrOcessead.' 
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记 个 程序 修改 了 默认 的 字 航 分 隔 符 ， 并 使 用 NR 打印 记录 的 总 数 。 广 意 ， 这 个 程序 
使 用 了 -- 个 正则 表达 式 来 表示 NE 的 值 。 程 序 执 行 的 输出 结果 如 下 : 


John RoRplnReecr-， sp-D987 
DY-1jS aaRTaTL， 呈 ， 衬 一口 包间 总 


吕 


也 局 站 Fe 和 二、 


当 在 print 诸 名 中 用 逗号 分 隔 参 数 时 ， 将 产生 输出 字段 分 隔 符 (OFS )。 你 或 许 会 对 
下 面 的 表达 式 中 过 号 将 起 什么 作用 产生 疑问 : 


BILE SR ”81，awO 


默认 情况 下 ， 逗 号 将 在 输出 中 产生 一 个 空格 (OFS 的 默认 值 )。 例 如 ， 你 可 以 使 用 
BECIN 过 程 将 OFS 重 定义 为 制 表 符 。 那 么 前 面 的 print 语句 将 产生 如 下 输出 : 


Jeann 日 -如 
了 1 
了 . JasperT 585.6 


如 果 和 输 和 人 字段 由 制 表 符 分 隔 , 并且 希 望 产生 相同 的 输出 时 ,这 种 方法 特别 有 用 .OFS 
可 以 重 定 久 为 系列 字符， 例如 有 逗号 后 面 跟 -个 空 向。 


另 :个 常用 的 系统 变量 悬 NE , 它 的 值 被 设置 为 当前 沁 录 的 字段 个 数 。 就 像 我 们 将 在 
下 一 部 分 看 到 的 那样 , 可 以 用 NF 来 测试 一 个 记录 的 字段 个 数 是 否 与 所 期 望 的 相同 。 
也 可 以 用 NE 来 引用 每 个 记 站 的 最 后 一 个 字段 。 使 用 “$” 字段 操作 符 和 NEF 可 以 实 
现 访 引用。 如果 有 6 个 字段 ， 那 么 “$NF” 与 “$6” - 样 。 假 定 有 坟 下 名 字 列 表 : 


JRnn Kermotedy 

DYymndon 已 ，Johresec 

有 RiIchar 妇 MiLhouse LOI1 
台 们 Ta 有 Fo 

了 iTIY 妆 有 上 扰 眶 

RCDa TO RE 可 电站 

GeargE Bush 

Bjll Clinton 


可 以 看 出 每 个 人 的 姓 在 记录 中 的 字段 号 是 不 同 的 。 这 时 可 以 用 “$NF” 打 印 每 个 总 
统 的 姓 ( 注 4) 。 








注 4: 这 个 方案 圳 Martin Van Bnren 打破 了 :; 幸运 的 是 ,我们 只 列 出 了 最 近 的 美国 总 统 。 
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以 上 分 绍 了 基本 的 系统 变量 , 也 是 最 常用 的 系统 变量 ,其 他 更 多 的 系统 变量 列举 在 
附录 二 中， 下 面 我 们 将 介绍 在 本 章 随 后 的 内 容 中 需要 的 新 的 系统 变量 ， 


处 理 多 行 记录 
我 们 所 有 的 例子 中 用 到 的 输入 文件 其 记录 都 是 由 单独 一 行 组 成 的 。 在 这 -部 分 ,我 
们 将 演示 如 何 读 入 一 个 记录 ， 而 记录 中 的 每 个 字段 都 由 单独 一 行 组 成 。 


前 面 我 们 了 解 了 处 理 姓名 和 地 址 的 文件 的 例子 。 让 我 们 假设 相同 的 数据 保存 在 块 格 
式 的 文件 中 ,. 不 是 将 所 有 的 信息 放置 在 - : 行 , 而 是 将 人 名 放 在 -- 行 , 在 下 “- 行 访 置 
会 司 名， 以 此 类 推 ， 下 面 起 一 个 记录 样本 : 

JUohm RobImSscn 

RerERn InCS - 

37 台 CCnnlarlevealLh 疡 we 

Sestem 


RE 口 17p6 
686-D387 


这 个 记录 有 56 个 宁 段 ， 记 录 之 各 用 空 行 分 隔 。 
为 了 处 理 这 种 包括 多 行 数据 的 记录 ,我 们 可 以 将 字段 分 阳 符 定 浆 为 换行 符 , 换行 符 
用 “\ ”来 表示 ,并 将 记录 分 隔 符 设置 为 空 字符 串 ， 它 代表 一 个 空 行 。 
BEGIN { PS - ai RS =- 
我 们 可 以 使 用 下 面 的 脚本 来 打印 第 一 个 和 最 后 一 个 字段: 


# Dlock .awk -4 外 第 -个 和 营 后 .个 字段 
才 5 = name; SNF = Phone mumber 


BEGIN L FS = “ny RS = " ”上 


1 REIRL $S1，SNF 
例子 的 运行 结果 如 下 : 


$ awk - 芋 本 Lock .ask Phonenw .block 
OH FDI SS 记 启 王 号 一 总 号 8 了 

PhY1]lis Chapman B73 -90 各 
JEEEZEY 容 1L1LIS 习 14-5365-0050 
aliece Gol (1307) 724-0000 

忆 1 Ge -了 站 了 一 了 安生 -日 站 日 问 
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这 耳 个 字段 输出 在 同一 行 是 因为 默认 的 输出 字段 分 隔 符 (OFS) 仍然 是 一 个 空格 。 
如 果 逢 望 将 这 些 字段 竹 出 在 不 所 的 行 上 ， 可 以 将 DBPS 的 值 改 变 为 :个 换行 答 来 实 
现 。 这样, 你 可 能 希望 用 空格 将 记录 分 隔 开 , 因此 必须 将 输出 记录 分 隔 符 DRS 设 置 
为 两 个 换行 管 。 


DEFES = Mn 7 OORS = Sn" 


支票 簿 的 结算 


这 是 一 个 简单 的 应 用 , 用 于 处 理 支 票 登 记 条 日 。 虽然 不 一 定 是 最 简单 的 结算 支 村 薄 
的 方 续 ， 但 使 用 awk 来 完成 某 事 的 速 庆 会 快 得 令 人 惊奇 。 


假设 已 经 输入 了 - :个 如 下 的 文件 : 


100D0 

125 到 忆 工区 所 二 一 125 , 臣 5 
工 2 HaTQware 呈 LDEFP -34 -35 
127 Viaec SOT -了 .5 
工 2 己 Hook 电 -DIe -4 32 
1298 信 三 S 人 LEn 白 -] 台 .1 站 


在 第 一 行列 出 了 初始 的 余额 。 其 他 的 每 一 行 提供 了 单个 支 奈 的 信息 : 支 标号， 使 甩 
支票 的 场所 和 支票 金额 。 这 3 个 宇 段 由 制 表 特 分 隔 , 旺 户 的 数据 用 负数 表示 。 于 是 ， 
存款 就 可 以 用 正 数 表示 。 


这 个 脚 李 的 核心 任务 是 必须 得 到 初始 的 余额 ,并 入 余额 中 短 去 每 个 支票 的 金额 。 我 
们 可 以 为 每 个 支票 提供 详细 的 行 来 与 支票 登记 内 容 比 较 。 景 后 打印 出 最 线 的 余额。 
代码 如 下 : 


井 “ 己 有 全 挛 Kkbook .BawK 
BHBGIN T FS = “At 》 


#1 期 望 第 -条 站 录 为 初始 余额 。 


NR =*= 工人 BRIiInL "Be 训 inming BalancCe:At" el 
aanee = 当 1 
Text # 用 得 下 :条 记录 并 结束 


} 


#2 应 用 于 每 个 支 碍 记录 ,将 信 额 与 数量 相 加 。 
， ETIDH 二 1 ， 训 ， 辣 
Frint palLance +- 号 3 # 支 灰 数额 有 负数 
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运行 这 眉 程 序 得 到 的 结果 如 下 : 


5 mwK -于 Beckbook -awk checkbcrok .teeBt 
Eeeginrmanog Balasamcel 工 总 口 总 
125 MayrKeEt 1>95 .45 

电表 .5 

126b Herawarr STOrc -34.95 

站 3 日 各 

12 YYzdec 呈 FOFe -7 .二 5 

3 15 

128 Bock StDITE -人 .32 

E1L7.83 

139 吕 agscame -6.10 

ED] .33 


这 个 报告 很 蕉 阅读 、 但 在 后 面 我 们 将 学 习 使 用 printf 语句 来 格式 化 报告 的 格式 . 最 
重要 的 是 该 脚本 执行 了 我 们 记 期 单 做 的 事情 。 注意 , 在 awk 中 编写 这 样 的 脚本 仅 需 
要 玫 分钟。 如 果 用 类 似 于 C 的 语言 来 编写 这 样 的 程序 将 需要 更 长 时 间 , 其 中 一 个 原 
因 是 , 你 内 须 与 更 多 行 的 代码 ,而 及 可 能 需 归 进行 更 低层 次 的 编程 。 可 以 用 许多 精 
心 的 设计 来 改善 这 个 程序 , 和 而且 精 炼 一 个 程序 将 需要 更 多 的 时 间 。 而 使 用 awk 本 以 
很 容易 地 将 基本 功能 独立 册 来 并 加 以 实现 。 


关系 操作 符 和 布尔 操作 符 


关系 操作 符 和 布尔 操作 符 用 于 在 两 个 表达 式 之 间 进 行 比较 - 表 7-4 列 出 了 关系 操作 符 。 





囊 7-4: 关系 操作 符 
操作 符 描述 

< 小 于 

> 大 于 

< 小 于 或 等 于 
>= 大 于 或 等 于 
== 相等 的 

1= 不 等 的 

“ 亚 配 
:| 不 号 配 








美 系 表达 式 可 用 在 模式 中 来 控制 特殊 的 操作 。 例 如 ,如 果 我 们 起 限定 要 处 理 的 记录 
包 售 5 个 字 息 ， 由 可 以 用 下 面 的 表达 式 ; 
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NE == 5 


这 个 关系 表达 式 将 NFE《【 每 个 输入 记 东 的 字段 数 } 的 值 和 5 相 比较 。 如 果 结 时 为 真 ， 
那么 就 进行 相应 的 处 埋 ， 否 则 不 进行 处 理 。 





注意 ; 关系 操作 符 “==【 相 等 )” 和 赋值 操作 符 “= 【等 于 )” 是 不 同 的 . 用 “=*” 代 趟 “==” 来 
检测 相等 性 是 “个 普遍 的 错误 。 





我 们 可 以 在 试图 打印 数据 库 pponefisi 的 记录 之 前 用 一 个 关系 表 运 式 来 检测 ， 
NF == 和 1 prire SLS6 1 
只 有 共有 6 个 字段 的 记录 才 被 抒 印 。 
和 “==” 相 反 的 是 “!=【 不 相等 的 ) 。 同 样 地 ， 可 以 比较 一 个 表达 式 是 否 大 于 (>) 
或 小 于 《<) ,或 人 于 等 于 (>=)， 或 小 于 等 于 (<= ) 另 一 个 表 过 式 。 如 下 的 表达 式 : 
NR>- 


检测 当前 记录 号 是 否 大 于 1, 在 下 章 我 们 将 看 到 , 关系 表达 式 经 常用 在 让 语句 中 , 通 
过 计算 来 决定 是 否 执行 特殊 的 操作 。 


正则 表 过 式 经 常用 斜 杠 包围 。 这 经 常 被 作为 正则 表达 式 常 量 , 正如 “Hello” 是 一 个 
字符 串 常 量 一 样 。 我 们 已 经 看 到 很 多 这 样 例子 : 


ZnASA DrinE This 13 和 plank 1ine," 


然而 ,也 常常 不 局 限于 正则 表达 式 常量 。 当 使 用 关系 操作 符 ~ (匹配 ) 或 ! ~ 【不 匹 
配 ) 时 ， 右 边 的 表达 式 可 以 是 awk 中 的 任意 表达 式 ; awk 将 它 作为 一 个 字符 趾 并 用 
来 指定 -- 个 正则 表达 式 【 注 5)。 我 们 曾 学 习 了 一 个 使 用 ~ 操作 符 的 例子 ， 用 于 电话 
号 码 数 据 库 中 模式 匹配 规则 . 


35 7 MHR7 {fPFinL SLS 扣 )} 


这 个 语句 是 将 第 五 个 字段 的 值 与 正则 表达 式 “MA” 比较 。 
证 和 ， 当 调 南 砷 atehfi、sPMitD 、sSmhb 必 和 Bsub 仆 十 数 时 ， 也 可 以 使 用 字 蔡 训 民 痊 正 则 表达 式 
常生 。 
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因为 所 有 的 表达 式 都 与 ~ 和 ! :起 使 用 , 因此 缮 则 表达 式 可 以 用 变 昌 来 提供 。 例如 ， 
在 脚本 PPenetsi 中 ， 我 们 林 以 用 state 米 代 赤 "7MA/”, 并 编写 .个 过 程 来 定 六 state 
的 值 . 


SG vv SbatEe |L DrIrrt 1 ”8 


这 使 得 程序 代码 更 加 通用 , 因为 在 脚本 技 行 过 程 由 可 以 动态 改变 模式 。 例 如 ， 我 们 
可 以 从 命令 行 参数 得 到 state 的 值 ,在 本 章 的 后 面 我 们 将 讨论 如 和 何 将 命令 行 参数 传递 
给 脚本 。 





使 用 布尔 操作 符 可 以 将 一 系列 的 比较 组 全 起 米 。 表 ?3-5 列 出 了 布尔 操作 符 。 
表 7-5: 布尔 操作 符 





操作 符 | 定 匀 

11 罗 辑 或 “ 
上 畦 办 与 

| | 层 辑 非 





给 定 两 个 或 多 个 表达 式 ， 只 有 当 给 定 的 表达 式 之 .的 值 为 真 非 零 或 非 空 ) 时 ， 使 
用 操作 符 几 的 回 个 形 达 式 的 值 才 为 走 。 而 只 有 当 凶 入 操作 符 连 楼 的 两 个 表达 式 的 值 
都 为 真 时 结果 省 为 真 。 


下 面 的 表达 趟 : 
NF -=- 日 && NMR > 1 
表示 字段 的 数量 必须 等 于 6 并 且 记 录 的 编号 必须 大 于 1。 


人 尼 芭 比 几 的 优先 级 别 高 ， 你 能 说 出 下 面 的 袁 达 式 的 计算 结果 吗 ? 


Na >1 5 NM = 2 11 81 -~ AEF 


下 面 的 例子 用 车 括 号 表明 了 基于 优先 规则 那个 表达 式 将 普 先 被 求 值 。 


INR > 1 a& NF >- 2) | 81 ~- vb/ 


换 名 话说 ,， 千 括 号 中 的 两 个 表达 式 必 须 都 为 真 或 于 括号 布 边 的 表达 式 为 真 。 可 以 用 
阅 括 号 来 改变 优先 规则 ， 例 如 ， 下 面 的 例子 规定 所 个 条 件 必 须 都 为 真 。 
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NRE 2:] INE -2 














第 :个 条 件 洗 须 为 真 ， 而 日 另外 两 个 荣 件 中 必须 有 一 个 为 真 。 
无 论 - :个 表达 式 的 值 为 真 或 为 吴 ， 操 作 符 ! 邦 对 其 值 永 反 。 
ME 


如 果 贺 括号 中 的 表达 式 的 和 值 为 假 ， 那么 上 让 的 表达 式 的 结果 就 为 真 。 这 个 操作 符 与 
at 中 的 训 操作 符 结合 起 来 非常 有 有 几 , 可 用 来 判断 其 个 下 标 是 再 在 数组 中 { 在 后 闸 我 
们 将 会 看 到 )。 当 然 它 示 有 其 他 的 用 什 。 


获取 文件 的 信息 


规 在 我 们 来 学 习 处 开 UNIX 命令 四 的 输出 的 几 个 妓 本 。 下面 是 执行 命令 15- 工 得 到 的 
一 个 长 列表 翌 本 【 注 6 


SS 13 = 

-zw TI 一 IT 一 | 9a1E 皇上 局 :三 女 圭 ns1l1 Tan 123:31 Cerm mp 

一 TXTWXTWX 四 忆 FOTeC 1778 Jan ] 了 二 :55 台 DrImPITI 所 .IOX 
TIW-IT ETWw- 1 qqale PE3eCt 1445 Feb 15 331:334 遇 mng 

一 ZWwXITWXIHWXS  ， 上 | 日 a1 Dr]ecec 1202 Uarl 了 230 Ermat 1LGK 


这 个 列表 是 一 个 报告 ， 其 中 的 数据 按 行 和 列 显示 。 每 个 文件 信息 显示 在 单独 的 - 行 
上 。 文 件 列表 由 9 个 列 组 成 。 文 件 的 操作 权限 出 现在 第 - - 列 ， 文 件 的 字 节 数 显示 在 
第 五 列 , 文件 名 显示 在 最 后 一 列 。 在 列 之 间 由 一 个 或 多 个 空格 来 分 陋 , 我 们 可 以 将 
每 个 列 看 做 是 -个 字段 。 


在 第 一 个 例子 中 , 我 们 将 这 个 命令 的 输出 结果 学 和 人 一 个 awk 脚 本 中 ,该 脚本 打印 出 
该 文件 列表 中 选 定 的 字段 . 为 了 完成 这 项 操作 , 我 们 将 创建 .个 shell 脚 本 使 得 能 够 
将 数据 输送 到 用 户 . 因此 ，shell 程序 的 结构 是 : 


ls -1 8 | awk Serlprr 


shel 使 用 天 变量 来 扩展 道 过 命令 行 传递 的 所 有 蛮 工 【这 里 可 以 使 用 $1 来 传递 第 一 
企 变量 , 从 是 传递 所 有 的 变 顺 将 具有 更 大 的 灵 话 性 )。 这 些 宥 数 可 能 是 文件 名 . 肯 录 





注 担 ， 注 闸 在 Berkeley 4.3BSD 流 生 的 UNIX 系统 上 ， 例 如 U]ltrix 或 SunODS 4.1x，Is -I 产 
生 一 个 吕 列 揭 报 告 ; 使 用 焉 -1E 得 到 与 这 里 显示 的 相同 的 报表 格式 。 
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或 1 命令 的 附加 选项 ， 如果 没有 指定 参数 ,“$* ”将 为 堂 并且 亚 示 当 前 日 录 。 内 此 
ls 命令 的 输出 可 以 传 给 awk， 即使 坝 有 给 出 文件 名 也 能 自动 读 取 标 瞧 的 输入 。 


我 们 希望 awk 脚本 能 够 打印 文件 的 大 小 和 名 字 。 即 打印 第 五 个 字段 (8S) 和 第 九 个 
字段 1$9 ) 。 
司 一 二 3 | awk 1 
POOL RD 
] 
如 果 将 上 面 的 代码 保存 在 文件 大 中 并 运行 该 文件 ， 则 可 以 将 ms 作为 -个 命令 来 输 
人 人: 


驴 王 工 名 

怕 站 盖 1 CGI < 工 甩 
人] CombpILcrc - 工 他 式 
4 35 Qang 

1 202 上 FIaa 二 .区 
$ 王 LB cmay 

在 问 生 工 Com .二 mg 
]778 COmPImES ,可 区 


以 上 程序 所 和 做 的 工作 就 是 读 和 人 一 个 长 列表 并 将 其 减少 为 两 个 字段 。 现 在 我 们 来 为 所 
产生 的 报告 , 增加 一 些 新 的 功能 以 产生 - 些 信 息 , 这 是 18 -1 列表 所 没有 提供 的 。 我 
们 将 每 个 文件 的 大 小 相 加 , 得 到 列表 中 所 有 文件 的 总 字 节 数 。 我 们 还 能 够 跟踪 文件 
的 数量 并 计算 出 总 数 。 增 加 这 些 功能 包括 两 部 分 。 首 先 累 计 每 个 输入 行 。 我 们 创建 
变量 sum 来 票 加 列表 中 文件 的 大 小 、 用 变量 得 enum 来 果 加 列表 中 文件 的 数量 。 

{ 

Sum += 占 9 

44 王 emurm 


BEInE SS5， "上 "。 上 字 
】} 


第 一 个 表达 式 使 用 冉 值 操作 符 += 。 它 的 功能 是 将 第 五 个 字段 的 值 加 到 变量 sum 的 当 
前 值 上 。 第 二 个 表达 式 递 增 变量 fenmum 的 值 。 该 变量 作为 一 个 计数 器 ， 每 次 表达 
式 计 算 一 人 次， 计数 器 加 1。 


我 们 所 编写 的 操作 将 应 用 手 所 有 的 输入 行 。 当 awk 读 人 所 有 的 输入 行 后 , 所 产生 的 
总 数 芭 须 打 印 出 来 因此， 我们 编写 了 一 个 由 翌 ND 规则 榨 制 的 操作 : 


END TPRPzint "Total:'"，Ssum， "byees (1" tjilenum " filesh" } 
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我 们 还 可 以 使 用 BEGIN 规则 给 报告 增加 列 标题 。 
BEGIR { PT “ 昌 YTES ”TITLE 


现在 ， 我 们 将 这 些 程序 代码 该 于 文件 FIenmm 中 并 作为 … 个 单词 命令 运行 。 


写 芋 本 二 它 日 败 心 才 

BYTES PRILZ 

日 昌之 Ch] 

1771 4 

工 3B7 [1 

石 占 各] eam.tmP 

上 上 7/ 世 人 STRIDE ,OK 

Total: 123459 bywtes 【5 工 L1esl 


这 个 命令 的 优点 是 能 够 依 定 -个 目录 或 某 个 文件 组 中 文件 的 天 小 。 


在 实现 基本 机 制 之 后 , 还 需要 注意 儿 个 问题 。 第 一 个 问题 出 现在 当 使 用 ls -1 命令 显 
示 浆 个 目录 时 , 列表 中 包含 -个 指定 目录 中 块 的 总 数 的 行 。 在 前 面 例子 (所 有 以 “e” 
开头 的 文件 ) 中 的 部 分 列表 中 没有 包含 这 “ 行 , 但 是 如 呈 整 个 日 录 都 列 出 来 ， 那 么 
在 给 出 中 将 会 包含 下 面 的 - - 行 : 


上 上司 十 六 ] 55 握 


我 们 对 块 总 数 并 不 感 兴趣 ， 因 为 程序 显示 了 文件 的 总 的 大 小 。 现 在 flesum 没有 打 
印 这 一 行 ， 但 是 它 读 入 了 这 一 行 并 使 计数 器 filenum 得 到 了 递增 ， 


这 个 脚 可 有 还 有 一 个 问题 , 也 就 是 它 如 何 处 理子 日 录 。 参 见 下 面 1 -1 执行 绪 果 中 的 一 


伍 ; 
人 TXTTRTEIWX 了 寻 昌 1 下 BTrO]ject 60 FED 1 15:437 5886 


第 一 列 ( 文 件 的 抬 作 权限 ) 中 的 首 字符 “d "表示 该 文件 是 子 目录 。 文 件 的 大 小 (960B ) 
并 不 表示 子 目 录 下 的 文件 的 大 小 ,因此 ,经 常 错误 地 把 这 个 数 加 到 文件 总 的 天 小 上 。 
国 此 ， 指 出 这 是 一 个 目录 可 能 是 有 用 的 。 


如 果 想 列 出 子 目 某 中 的 文件 ， 可 以 在 命令 行 中 提供 -及 (递归 ) 选项 。 该 选项 将 传递 
给 1]8 命 令 . 然而 , 当 它 识别 每 个 目录 时 , 列表 有 一 些 区 别 。 例 如 , 要 识别 子 目 录 oj， 
1s -1R 将 产生 一 个 空 行 ， 其 后 跟随 : 
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我 们 前 面 的 融 林 忽略 了 这 行 用 其 戎 而 的 空 行 ,但 是 仍然 遂 增 文件 订 烤 强 , 运 的 是 ， 
我 们 可 以 族 计 规则 来 处 理 这 交情 训 。 我 们 来 看 下 面 修改 后 的 、 轴 了 证 释 的 囊 本 : 


13 -二 4 | awk ， 
F flesuni 列 出 件 和 总 的 字 扼 才 
f 输 人 : 由 阶 人 ”< -上 ”下 成 的 长 列 坦 


* 工 输 出 到 的 标题 


azGJS 1T DPIIIE "BTTES" ”AL ， “2TDE 1 


f 2 宙 成 闻 个 生生 ， 于 件 以 “一 ” 间 始 
ME -- 昌 区 
srm + ss 上 朵 计 交 件 大 小 
411enun hk 系统 文件 个 数 


Ezint ss ， 89 上 打 呈 大 小 和 文件 名 
} 
+ 4 测 起 3 个 守 民 ,日 地 由 “9 ”开始 
Mb ==- 日 痘 证 加 
Print "<dir>"， AS9 # 打印 <air> 和 名 字 
} 


+ 4 测 成 3 -1LR 行 .ar: 
SL ~ yn wasgr 1 
Prirt "=-，Ss0 井 林 印 几 制 开 符 处 埋 的 行 
] 
#+ 5 所 并 了 工 作 已 宽 
END 1 
并 打印 所 有 将 作 总 的 大 小 和 文件 数 月 


BiInL “Total: “， Su， "bytes +” FLlenun ， 工 iLesln 


这 里 对 规则 以 及 与 之 相关 的 操作 设置 了 编号 ,以 恒 进 行 讨论 。 由 1s-1 产 生 的 列表 包 
售 文 件 的 9 个 字段 awk 在 系统 变量 NE 中 给 出 了 一 个 记录 中 的 字段 的 个 数 。 因 此 ， 
规则 2 和 规则 3 测试 NE 是 人 否 等 于 9.。 这 可 以 使 我 们 避免 与 奇数 空 行 或 表示 块 总 量 的 
行 匹配 。 因 为 我 们 希望 对 日 录 和 文件 做 不 同 的 处 理 ， 所 以 我 们 使 用 另 -… 个 模式 来 匹 
配 行 的 第 一 个 字符 。 在 规则 > 中 我 们 测试 行 的 第 个 位 置 的 字符 “-"”， 这 表示 一 个 
文件 。 如 果 引 配 则 递增 与 之 相关 的 文件 计数 器 并 累计 文件 的 大 小 。 在 规则 3 中 我 们 
测试 “个 目录 , 用 “9” 作 为 第 一 个 字符 来 标识 。 相关 的 操作 是 在 文件 大 小 的 位 置 上 
打印 “<dir>”。 规则 2 和 规则 3 是 复合 去 达 式 ， 用 有 & 和 操作 符 将 两 个 模式 结合 起 来 。 
两 个 模式 都 必须 匹配 表达 式 的 值 才 为 真 。 
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规则 4 用 于 测试 由 ls-IR 产 生 的 列表 的 特殊 情形 ( .fold:”)。 我 们 可 以 使 用 正则 表达 
蕊 或 关系 表达 式 来 编 忆 一 些 耳 配 这 - 行 的 模式 。 


Ar -- 1 如 果 戚 的 个 数 符 上 ……、 


0 刀 乐 行 以 条 点 关头 ， 基 后跟 站 任 辣 数 革 的 字符 并 以 得 号 结束 …… 
上 如 站 威 [号 配 正 则 表达 所 … 


我 们 采用 后 面 的 表达 式 , 因为 人 似乎 是 最 具有 和 斜 对 性 的 。 它 使 用 匹配 操作 符 (~) 来 
测试 第 “个 字段 是 否 匹 配 :个 正 贴 表达 式 。 相 关 的 操作 只 由 一 个 print 语句 组 成 。 


规则 5 是 END 模式 ， 它 的 操作 只 被 执行 一 次 ， 用 于 打印 出 文件 总 的 尺寸 和 数 晨 。 


程序 filesum 演 发 了 awk 中 的 许多 基本 的 结构 。 更 重要 的 电 ， 它 提供 了 如 何 编写 舟 
序 的 一 个 很 好 的 思路 (尽管 由 于 排版 和 草率 的 想法 产生 的 话 法 错 民 被 忽略 了 ) .如果 
想 修改 以 上 程序 ， 可 以 为 日 录 增 加 一 个 计数 器 、 或 建立 一 个 规则 来 处 理 符 号 连接 . 


格式 化 打印 


到 现在 为 正 , 我 们 编写 的 许多 脚本 可 以 很 好 地 实现 对 数据 的 操作 , 但 没有 对 和 输出 进 
行 透 当 的 格式 化 。 这 是 因为 基本 的 print 语句 所 能 做 的 于 作 有 限 。 因 为 awk 的 大 多 
数 功 能 是 产生 报告 ， 因 此 以 整齐 的 样式 产生 格式 化 报告 是 很 重要 的 。 程 序 们 esum 
可 以 很 好 地 处 理 数 据 ， 但 它 的 报告 缺乏 整齐 的 格式 ， 


ay 提 供 的 prina 好 可 以 代替 Print 语句 ，prin 寻 是 借用 了 C 程 序 设 计 语 吉 。Printf 语 
句 和 Briat 语句 一 样 可 以 打印 -全 简单 的 宇 符 趾 。 


WwWK “BEGIN DTIDtT HE]19，worldynmn3:) 


首先 可 以 看 出，Prit 和 Print 的 主要 区 别 是 printt 投 有 坦 供 自动 换行 功能 。 必 须 
明确 地 为 它 指定 “\" 


Prin 丝 语 名 的 完整 语法 由 是 部 分 组 成 ， 
PTin 村 (rpaat_expressiopm[ .argatnaehl3]) 


其 中 的 加 括号 是 可 选 的 。 第 一 部 分 是 - -个 用 来 摘 述 和 糙 式 的 表达 式 , 通常 以 引导 括 起 
的 字符 串 当 量 的 形式 提供 。 第 二 部 分 是 “个 参数 列表 ,例如 变量 名 列表 . 它 和 格式 
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说 明 相 对 应 。 在 格式 说 明 前 面 有 一 个 百 分 号 【 锡 )， 而 格式 说 明 符号 为 表 7-6 列 出 的 
字符 之 一 。 两 个 主要 的 格式 说 明 符 是 s 和 ，s 表 示 字 符 串 ,4 表示 十 进 制 整数 ( 注 
7)。 ， 





表 7-6， 用 在 printf 中 的 格式 说 明 符 











字符 | 定义 
c ASCII 字 符 

十 十 进 制 整数 

i 十 进 制 整数 【在 POSIX 中 霄 加 的 ) 

忆 译 点 格式 【[- 志 precisione[+-]ada) 

卫 浮 点 格式 【[-]d.precisiopE[+-]d) 

ff 济 点 格式 【[-]aad.precifio#) 

名 4 或 了 的 转换 形式 ， 长 度 最 短 ， 未 必 的 0 被 去 掉 
刁 也 或 节 的 转换 形式 ， 长 度 最 短 ， 末尾 的 0 被 去 掉 
吕 无 符号 的 八进制 

5 字符 串 

1 无 符号 的 十 进 制 

区 无 符号 的 十 六 进 制 ， 用 af 表示 10-15 

蕉 无 符号 的 十 六 进 制 ， 用 - 表示 10-15 

入 字 罩 字符 多 





下 例 在 程序 ienum 的 规划 2 中 用 Prin 必 产生-- 个 输出 。 它 给 出 不 同 的 两 个 字段 上 
的 字符 串 和 十 进 制 值 : 


古 i 立 FE 王 1 "对 各 % 生 SA SS，59) 


读 语 句 输出 辐 的 值 ， 后 面 是 制 表 符 忆 和 吧 ， 然 后 输出 一 个 换行 符 (mm)《〈 注 8)。 对 
每 个 格式 说 明 必 须 提 供 一 个 相应 的 参数 ， 





广 7: ”printf 进 行 全 人 的 方式 在 附 孙 二 中 讨论 。 
这 有: 将 这 索 话 向 与 但 esum 程 序 中 打印 标题 行 的 语 向 进行 比 轻 。priat 语 抽身 动 捷 供 接生 着 
(ORS 的 值 j; 当局 用 prin 好 时 ， 体 必须 提供 换行 侍 ， 它 永 丈 不 会 自动 产生 。 
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Prin 让 语句 可 以 规定 输出 域 的 宽度 和 对 齐 方式 ， 个 格式 表达 式 由 3 个 可 透 的 修饰 
符 组 成 ， 跟 在 “% ”后 面 ， 并 出 现在 格式 说 明 符 之 前 。 


是 一 太 了 他 站 ,所 六 全 让 世 了 口 四 Fi 呈 二 一 瑟 抹 急 放 工 攻 工 所 开 


描述 输出 字段 宽 诬 的 midta 是 一 个 数值 。 当 指定 感 宽度 时 ， 这 个 域 的 内 容 软 认为 向 
布 对 齐 - 必须 指定 “-” 来 设置 左 对 齐 . 国 此 ,“ 气 -20s” 输 出 的 是 向 左 对 齐 的 个 域 
长 鹿 为 20 个 字符 的 字符 册 ， 如 果 字 特 串 少 于 20 个 字符 ， 那 么 这 个 域 将 用 空格 来 填 
请 , 在 下 刹 的 例子 中 , 输出 -个 “| ”来 指示 输出 域 的 上 趴 实 长 度 . 第 一 个 例子 是 右 对 
齐 的 文本 : 


PrintE1' |%105| sn ， "hellor) 
结果 是 : 

| hellol 
下 个 例子 是 左 对 齐 的 文 机 : 

DIEIDCET 1 g-]Ds1Yna"， "PPellao" 1) 
结果 是 : 

jnhellLe 


Precision 修饰 符 用 于 十 进 制 或 浮 点 数 , 用 于 控制 小 数 点 右 馆 的 数字 位 烤 。 对 于 字符 
串 型 值 ， 它 用 于 控制 要 打印 的 字符 的 最 大 数量 。 


注音， 数值 前 默认 precisijion 值 为 “ 铝 .6gE"。 


可 以 根据 print 或 printt 的 参数 列表 中 的 值 ,动态 地 指定 宽度 widt# 和 精度 precision， 
通过 用 星 号 代 奉 实际 的 值 来 实现 这 个 功能 : 


瑟 工 mL 人 1 第 * ,党 wm 二 ， 卫 ， Terearl 


在 这 个 例子 中 ， 宽 度 是 5， 精 度 为 3， 要 打印 的 和 值 来 自 myvar。 


print 语句 输出 数值 的 默认 精度 可 以 通过 设置 系统 变量 DEFMT 来 改变 。 例 如 ， 如 果 
使 用 awk 打印 报告 ， 其 中 包含 美元 ($)》 数值 ， 可 以 将 DEMT 设置 为 “ 甸 .2f” 。 
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使 用 格式 表 具 式 的 完整 诸 法 可 以 解决 filssum 中 的 各 个 字段 和 标题 的 对 齐 问 题 。 我 
们 在 文件 名 前 输出 文件 天 小 的 -个 原因 , 就 关 以 这 种 顺序 输出 字 惧 对 齐 的 可 能 性 更 
太 ， 人 在 很 大 程度 上 它们 可 以 自己 对 齐 。prin 姓 提供 给 我 们 的 解 块 办 法 能 够 固定 输出 
域 的 址 度 ， 因 此 ， 每 个 域 在 相同 的 列 开始 。 


我 们 来 重新 调整 租 esum 报告 的 输出 域 。 我 们 希望 得 到 最 小 的 域 宽度 使 得 第 一 个 域 
在 相同 的 位 置 开 始 。 域 宽度 应 坡 团 在 有 和 转换 说 明 符 之 间 。 “名 -15s” 规定 域 的 宽度 
为 15 个 字符 并 且 字 符 左 对 齐 。 允 10d” 中 设 有 连 字 符 , 是 右 对 齐 的 ,这 就 是 我 们 所 
希 汗 的 十 进 制 值 的 表示 。 


Prinkf1" 和 -15svz2Ddvn"，89，8S5| 由 打印 文件 台 和 大 小 


这 将 产生 一个 报告 ， 基 中 的 数据 按 列 对 齐 并 且 琢 字 是 右 对 齐 的 。 看 -下 printf 诸 
句 在 END 中 荐 如 何 被 应 用 的 : 


PiImEETY TDEazz 负 d bwybes 18 ELeslvn'，Ssum，EzLenmnumh 


在 BEGIN 规 则 中 的 列 标题 也 被 适当 地 改变 了 。 通 过 使 用 printf 语句 ,filesum 产生 
如 下 的 结果 : 


站 瑟 二 1 eeBwum 可 * 


FIDE 了 BYTES 
台 之 了 
可 已 WK 已 337 
可 己 wWFK . ITa 工 工 1171 
避 站 WW 信 .七 二 号 开 ?3 
本 己 WKE 了 各 人 4 
忆 Ei1Lesumm 下 1 电 
SaQes 1 入 
站 工 羡 吕 后 S .aawK 231 
grepscriPt 扣 


TtEal:d680 bywcee 《9 芋 i]e 名 ) 


问 脚本 传递 参数 


在 awk 中 ， 个 容易 引起 袜 乱 的 地 方 就 是 向 脚本 传递 参数 . 参数 将 值 赋 给 一 个 变量 ， 
这 个 变量 可 以 在 awk 脚本 中 访问 ,这 个 变量 可 以 在 命令 行 上 设置 , 故 在 脚本 的 后 面 ， 


文件 名 前 面 。 


Var 7 一 一 一 1 
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ESWK :SCyrlpr var-vaLuc Input1l1le 


每 项 孝公 须 作 为 单一 的 参数 来 解释 。 因 北 ,在 等 号 的 两 边 不 允许 出 现 空 格 。 也 可 
以 用 这 个 方法 传递 多 个 参数 ， 例 如 , 如果 想 在 命令 行 定居 变量 High 和 low， 可 以 用 
下 面 的 代码 调用 awk: 








号 awk - 王 白 CEIRPEILe high=1tL00 Lowr=50 己 本 七 中 E 寺 荆 己 


在 法 本 中 , 这 遇 个 变量 可 以 作为 awk 的 任何 变量 来 坑 问 。 如 果 要 将 这 - 脚 木 号 人 一 
个 shell 脚本 的 实 击 中 , 则 可 以 以 数值 的 形式 传递 shell 的 命令 行 参数 【shell 按 位 置 
提供 了 命令 行 套 数 变量 : $1 表示 第 一 个 参数 ，$2 表示 第 二 个 参数 ， 依 次 类 推 ) 
《 注 9)。 例 如 ， 参 疯 前 面 命令 的 shell 脚本 : 


WwWK “二 SCTLDLEI IE “LSh=S1” "1ow= 上 Sa” naraEI2ze 


如 果 这 个 shell 脚本 被 命名 为 awket， 可 以 如 下 调用 它 : 


S awkeet 400 60 
“100” 对 应 于 $1， 其 值 将 峙 给 变量 high. 


另外 ,环境 变量 或 命令 的 输出 结果 也 可 以 作为 变量 的 值 米 传 递 。 这 里 有 了 两 个 例子 : 


BawK “1 ”QQLzecLoy=-Scwd filel 。，. 
awkK "人 QirecLory= BwG ”file .。，. 


“$cwd” 返 回 变量 ewd 的 值 , 即 当前 的 工作 路 径 ( 仅 是 csh)。 第 二 个 例子 使 用 反 引 
号 来 执行 Pwd 命令 ， 并 将 它 的 结果 赋 也 变 量 direcetory (这 是 非常 方便 的 )。 


也 可 以 使 用 命令 行 参数 定义 系统 变 提 ， 像 在 下 曾 的 例子 样 : 


号 awk 了 {BprLRE NR， 0 7 DFBS= .了 amE 昌 
工 ，Tem 厂 5 有 -573 呈 

之 Dale 653- 人 1L33 

了 了 ，Mary 5 和 3 一 上 22 

羡 .、 Je 5d43-2211 


输出 字段 分 隔 符 害 重 定义 为 句点 跟 一 个 空格 。 








注 晴 : 注 圳 ! 不 要 将 shell 中 的 奉 数 同 awk 中 的 字段 变量 活 。 
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命令 行 参数 的 一 个 重要 限制 是 它们 在 BEGIN 过 程 中 是 不 可 用 的 。 也 就 是 说 ,直到 
首 行 输入 完成 以 后 它们 才 可 用 。 为 什么 ? 这 是 “个 容易 议 乱 的 部 分 。 从 命令 行 传递 
的 参数 就 好 像 文件 名 : 样 补 处理。 赋值 拘 作 直到 这 个 变量 【如 果 它 是 一 个 文件 名 ) 
被 求 值 时 才 进 行 。 


参阅 下 面 的 脚本 ， 该 烤 本 将 变量 = 设置 为 -- 个 命令 行 参数 。 


awk "BEGIN 1 REInE mm 了 

[f 

了 (人们 == 工 )Prinr “及 全 aGinS he 芋 rsf 于 3e 
IE (也 =- 了 PEIIRL “上 全 昌 可 iD 七 MSGCenU ET1E 
了 区] 上 它 SL 丰 = 了 3 上 忌 5 本 也 


这 里 有 4 个 命令 行 参数 :“n=17 “test”" 、“n=2” 和 “test2"。 如果 你 现在 还 记 着 BECIN 
过 程 即 “ 在 处 理 输入 之 前 所 要 向 的 ， 你 将 会 理解 为 什么 在 BEGIN 过 程 中 的 参数 
返 问 值 为 室 ， 因 此 print 语句 将 打印 -个 空 行 ， 如 果 第 -个 秦 数 是 一 个 文件 而 不 是 
一 个 变量 赋值 ， 沪 文件 会 目 到 BEGIN 过 程 执行 后 才 被 打开 。 


第 “个 参数 为 变量 # 奔 初 值 1, 第 二 个 参数 握 供 了 文件 名 . 因此 , 对 于 tes 中 的 每 一 
行 ， 条 件 “nm == 1” 都 为 真 。 在 读 完 reslj 中 的 所 有 行 之 后 ， 计 算 第 三 个 铸 数 ， 并 将 
赋值 为 2。 最 后 , 第 四 个 参数 提供 了 第 二 个 文件 名 。 这 时 存 主 过 程 中 的 条 件 “n == 
2” 为 真 。 


以 这 种 方 靶 对 参数 求 值 的 后 果 是 不 能 用 BEGIN 过 程 测试 或 检验 命令 行 提供 的 参数 。 
只 有 当 输 入 一 行 后 它们 才能 够 使 用 。 要 了 解 这 种 局 限 性 , 可 以 适 过 编写 规则 *NR == 
1” 并 使 用 它 的 过 程 来 检验 参数 的 赋值 。 另 一 个 方法 是 在 调用 awk 之 前 在 shell 脚本 
中 测试 命令 行 参数 。 





POSIx awk 提供 了 “个 解决 这 个 问题 的 方法 , 即 在 任何 办 人 被 读 和 人 前 定 尽 参数 , 用 
屎 选 草 ( 广 10) 指定 要 在 执行 BEGIN 过 程 之 前 得 到 变量 赋值 (也 就 是 ,在 读 人 第 
一 个 输入 行 之 前 )。-Y 选项 必须 在 一 个 命令 行 脚本 前 说 明 。 例 如 ， 下 列 命令 使 用 -y 
选项 为 多 行 记录 设置 记录 分 晤 符 ， 





注 10: -vv 选 项 并 不 是 nawk 原始 版 素 ( 它 仍 然 在 SnnOS 4.1x 采 儿 和 一 些 System W Release 
3.x 系 纸 上 使 用 ) 的 一 部 分 。 它 是 1989 年 在 Bcll Lab 的 Brian Kernighan 增加 的 , GNU 
av 的 作者 和 MKS awk 的 作者 一 致 同 坊 在 了 BEGIN 块 中 可 用 的 命令 行 上 设 于 变 量 的 
方式 。 现 在 ， 它 是 BwWK 的 POSIX 壳 范 的 一 部 分 ， 
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WwWK -Fn" -ww RS- "TDpEint phones.bLock 
每 个 传递 给 程序 的 变量 赋值 痢 需 要 … 个 不 同 的 -* 选项 。 


和 上 C 程 序 语言 类 亿 ，awk 也 提供 系统 变量 ARGC 和 ARGY。 因 为 这 需要 了 解数 组 ， 
我 们 将 在 第 八 章 “条 件 、 循 环 和 数组 ”中 讨论 这 些 特点 。 


信息 的 检索 


ay 上 程序 可 以 用 于 检索 数据 库 中 的 情 息 ， 数据库 实 际 上 是 各 种 类 型 的 文本 文件 。 文 
本 文件 的 结构 化 越 好 , 对 其 处 理 就 越 容易 工作 , 尽管 这 个 结构 不 过 是 由 独立 的 单间 
组 成 的 行 。 


下 面 这 个 首 字母 缩写 词 列表 是 一 个 简单 的 数据 床 。 


号 2 和 七 CTODYImB 
了 ASTIC 3e8g9jnner'e 只 L1-BUEPOSE Symbolic Inetruction Coqde 


ICS Pustomer TIEOITmaALiICn Control 3yatem 

CDBDD COimmon ESLITSSS OFTLenteG 工 amgSUAd 革 巴 

DEMS 口 辟 七 局 孔 如 各 它 ”基站 口 己 吕 EIIETHL 吕 Y 台 二 所 世 

辣 IGD 癌 电 工匠 aag 已 Im， GaytbaC DuUt 

避 IRL Bemeralized IntetInation ReErieval Larguage 


制 表 符 被 作为 字段 分 隔 符 。 我 们 将 看 到 一 个 程序 , 它 将 普 字 县 缩写 词 作为 输入 并 选 
择 数 据 库 中 对 应 的 行 作为 输出 ,在 下 一 卓 中 ,我们 将 看 到 另外 两 个 使 用 首 宇 母 缩写 
词 数 据 库 的 程序 。 -个 程序 是 读 取 首 字母 缩写 词 列 表 并 在 另 一 个 文件 中 授 出 这 些 首 
字母 缩写 问 出 现 的 位 置 。 另 一 个 程序 是 定位 这 些 首 字母 缩写 词 在 文本 文件 中 的 第 一 
次 出 现 的 位 痪 并 插入 相应 的 首 字 母 缩写 词 的 描述 。) 


我 们 编写 的 shell 脚 本 命名 为 acro。 它 愉 命令 行 中 获取 第 一 个 参数 ( 首 字 母 缩写 词 的 
名 字 ) 并 将 它 传递 茹 awk 枝 本 ，acro 脚本 如 下 : 

号 屡 昌 七 ” 王 如 上 已 

井 ! Pinrasnh 


# 将 shs12 的 SEE 赋 给 awk 的 seareh 变量 
忆 WK 入] 一 =SaTCh7 SarCh=51 cromnyms 


在 shejl 命 令 行 中 的 第 一 个 参数 ($1 ) 被 赋 给 变量 search, 这 个 变量 作为 参数 传递 给 
awk 程序 。 传 递 给 awk 程序 的 参数 在 脚本 之 后 赔 明 。( 这 显得 有 些 混乱 ,因为 在 awk 
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程序 4$1 人 代表 每 个 输入 行 的 第 一 个 字段 ， 而 在 shel 脚本 中 $ 代 表 傅 令 行 提供 的 第 
一 个 套 夏 。) 
下 面 的 例子 读 示 了 和 如何 用 这 个 程序 在 列表 中 找到 特殊 的 首 字 母 缩写 词 。 


吕 忆 CE 安 T 妆 名 
TPR SEOmEY 2 并 人 并 CnmETOT SSLCm 


证 意 ， 我 们 将 参数 作为 字符 申 来 检测 【$L==seareh )。 我 们 瑞 可 以 特 其 殷 成 … 个 正 
则 表达 式 丐 丁 【 李 1~search ) 。 


查找 小 故障 


如 果 它 出 现 了 - -个 可 以 用 awk 解决 的 败 题 ， 就 会 向 我 们 发 出 - :条 信息 .下 面 是 
Emmett Hogan 写 的 原始 信件 ， 





工 用 SaV 马 en FFYIDU 上 所 >SwrTriEE 忆 Sed FT 7 TGFEF， SCriFF 上 二 hat We Use 人 DT 

引 中 here in Serl，but hawve thus ar been unreuccessftul., .hence hic 
Postiag FEav1n 多 TeVer WwWrtcter 性 myLhzmno iD per1l，anq hat 认 上 BH 了 让 可 二 怠 

WSIL [LOT 卡 De MLSne-] Perl book，1 fjgoTed 上 本 tap the kmeomwledge DEF his 
GroupP . 


Basically，we Fave Severax files which have the tormat: 


臣 人 mn inEo Line 1 
2mie 1L2zne 了 


imfED LILne 


Where eacrh :nEO 11n0e referSs [上 OO he item and 1 :maenktea DYy either 
号 白 志 亡 会 汪 OOT 起 BD 和 Each 1Eem "blIOCcK ”iig SeDpaxratea kr aa biank 1ine. 


What ImeeQ to do，1Ta 二 be able ro type li 

mi 唐 灾 ]ILECSD ELerame 

WeTe Lnte :35 the mame CE the Perl script，glitch is what IT want to 
tind ouc abpour，ang fixename 于 S -he name of che 上 il1e 内 ith -he 
1nfDT7maL Dr 10 ETne cateh Is -hat ，neea It ce PRIInt the ent1lIe 
“DJIOCcK” 守 t+ -FF 夺 1TQSs 后 LItch amnywhere in khe Fize，1i,ei 

Imachime San 37735 


电 忆 要 ULEITO 工 站 
FICIIE 上 oo TemeTY 要 上 itcDhesS 
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MOEe 二 衬 
mere 315 


WO Gear DTirited 1 You 1ODKE EDr “对 -1tch” aaLong W:Fh amy DrheT 
"LekSs ”WwWhIea CnBiDea khe word gticcn- 


CULTTeDt1Y7 WE are USsIr 可 10 夺 c11owIngS SCTIDz : 

#1Pbpinyesh -于 

划 

Se As AASABA SS |tr 0l128 av0121 |tgrep -icr EDb127 
Which :SS :mwerc ESDOW， 

am SHY Per Camn dp It 主 SeTr， PeLLer，etc bt 了 cannaot figure r cut， 


如 FiYr 总 ] 间 司 L 工 。， 也 全 并 呈 可 荆 全 二 七 TY 总 记 让 上 扣 嫌 斌 豆 芋 E 亿 


ThanKS Im 所 dwrance， 
ErmmretT 


Edret 上 上 Hoga 名 om t 人 Fr 昌 CienCe Tab，SRIT IntCermatIonal 


这 个 问题 可 以 用 awk 来 解决 . 你 也 许 在 阅读 更 多 的 信息 之 前 , 试图 自己 解决 这 个 问 
题 , 这 个 解决 方法 基于 awk 的 多 记录 功能 ， 需要 将 查找 的 字符 串 作为 俞 令 行 参数 进 
行 传递 。 


下 面 是 使 用 awk 编号 的 财 本 info ! 注 11): 


WwWK “BEGIN FS =- Am" RS = "1 下 
5 有 0 ”Search 1 DrinL SO0 }， Search=sl 8$2 


给 出 一 个 有 多 个 条 卓 的 测试 文件 ， 测 试 infe 看 它 是 否 能 找到 单词 “glitch”， 


SEC SLdtSh 写 1 寺 七 ch .七 生 B 七 
Tachjnme Sunm 3775 
日 了 人 雪 二 和 加 让 工 六 
PTeHe 二 D memoTY 可 1i LeChes 
mr 所 In 
meI 全 1 也 于 吕 


下 一 章 中 我 们 将 介绍 条 件 、 循 环 结构 和 数组 。 





注 11: 记 住 你 需要 能 提供 POSIX 话 闵 的 sw 来 完成 这 项 工作 。 它 可 以 是 awkK、Hawk 及至 其 
他 的 未 西 ! 请 检查 你 的 本 地 系统 文档 。 


-ie .一 -一 一 一 - -~-- ， 一-----.- 





第 八 章 4 
。 .和 袜 中 “ 


窜 


。” 吉 网 流 术 制 的 凑 他 洒 
条 件 、 循 环 二 


。 ”普宁 母 编写 河 浆 理 器 


和 数组 和 驮 汐 系 芒 蛮 攻 的 数 经 


的 


这 “ 章 包 含 了 : 些 蚌 本 的 编程 丫 榴 - 它 逢 次 了 awk 程序 设计 诗 寺 中 的 所 有 控制 站 构 。 
它 还 包括 数 给 . 即 … 种 可 以 存储 一 系列 慎 的 变 最 .如 果 这 是 你 第 “次 接触 这 些 结构 ， 
你 会 认 岂 到 其 全 sed 也 提供 了 条 人 忻 和 循 乐 功能 。 在 awk 中 这 些 功 能 更 普遍 而 及 语 
法 用 赵 来 更 简单 , 实时 上 .awk 中 的 条 件 和 循 厂 结构 的 语法 借鉴 王妃 程序 谈 让 语言 。 
网 此， 通过 荣 习 awk 和 本 党 的 结构 ， 你 也 癌 样 在 学 习 磋 请 三 。 


条 件 语句 


条 件 请 句 用 二 在 执行 换 作 . 乙 前 做 一 个 贡 试 。 在 前 面 的 走 贡 中 、 我 们 看 到 了 模式 正 配 
规则 的 一 些 示 例 。 模 式 吓 配 规 则 本 质 上 喜 是 影 吓 主 输入 循 坏 的 茶 件 表达 式 。 什 这 、 
部 分 ， 我 们 主要 吕 在 actiomn 中 所 使 用 的 条 件 诉 作 进行 探讨 。 


条 件 语句 以 证 开头 ， 并 计算 放 在 加 拖 号 中 的 表达 式 。 语 法 是 : 


这 f espFessteona 
已 CtiOmn 
[全 ] 汉 


立 erionoa 引 


如 果 条 件 胡 达 忒 expression 的 值 为 真 【 莫 零 或 赣 室 1， 就 执行 ecfion1， 当 存 人 else 
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语句 时 ， 如 时 条 件 表 达 式 的 值 为 假 ( 零 或 空 )， 则 执行 acfiom2。 一 个 条 件 表达 式 可 
能 包含 算术 运算 符 . 关系 操作 符 、 或 布尔 操作 符 ， 这 些 都 在 第 七 章 编写 awk 脚本 中 
讨论 过 。 





也 许 最 简单 的 条 件 类 达 式 是 测试 一 个 变量 是 否 是 一 个 非 零 值 。 
Ent 


如 果 x 是 零 ，Print 滞 名 将 不 执行 。 如 果 x 是 一 个 非 零 值 ， 将 打印 x 的 值 。 也 可 以 测 
试 工 是 否 等 于 另 一 个 值 : 


ET 其 ==- 了 1 BPrInL 区 


注意 ，==” 是 关系 操作 符 而 “= ”是 赋值 操作 符 , 我 们 还 可 以 用 模式 匹配 探 作 符 “~” 
来 测试 x 基 和 否 与 一 个 模式 匹配 : 


If (区 ~ [yyYjiesi3A ) Print 式 


以 焉 是 几 个 补充 的 语 尘 要 点 : 


*。 ”如 果 操 作 是 由 多 个 语句 组 成 的 ， 要 用 -- 对 大 括号 将 操作 括 起 来 。 


放 ( expression ){ 
辣 上 二 上 emeDntz 
号 亡 忌 上 白 所 刀 二 了 


】 


awk 对 大 括号 和 话 句 的 位 置 没 有 特殊 的 要 求 ( 和 sed 不 同 )。 堪 大 括号 放 在 条 件 
表达 式 后 面 , 可 以 与 条 件 表达 式 位 于 一 行 也 可 以 在 下 一 行 。 第 一 条 语句 可 以 紧 
跟 左 天 括号 或 从 下 一 行 开始 , 右 天 括号 放 在 最 后 一 条 语句 的 后 面 , 可 以 与 最 后 
一 条 语句 位 于 同一 行 也 可 以 在 下 一 行 。 在 大 括号 的 前 后 允许 有 空格 或 制 表 符 。 
虽然 没有 要 求 语句 编 进 书写 ， 但 这 样 可 以 改善 可 读 性 ， 


。  ，” 丰 火 括号 和 else 后 面 的 换行 是 可 选 的 。 


证 ( expression ) acticoni 


[else actio2 ] 


* 如 果 在 action7 后 面 加 - -个 分 号 表示 结束 ,actionz7 后 面 的 接 行 也 是 可 选 的 。 
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iexpression actzon3i [else action2] 


*。 如果 在 同一 行 上 用 分 号 分 隔 多 个 语句 ， 同 样 需 要 使 用 大 括号 。 


在 前 所 的 章节 中 , 我 们 曾 看 见 过 一 段 脚本 用 十 计算 学 生 的 平均 成 绩 。 我 们 可 以 用 一 
个 条 件 滞 名 来 判断 某 个 学 生 是 骆 及 格 。 


假设 平均 分 为 65 分 或 更 高 为 及 格 。 我们 可 以 编写 如 下 的 条 件 : 


if (1 asrg >= 55 》 

了 aude - "Pass 
已 已 

Graae =- "Fail- 


赋 给 grade 的 值 取决 于 表达 式 “avg >= 65” 的 计算 结 景 是 真 还 是 假 。 
可 以 用 多 个 条 件 语 名 来 铀 试 多 个 条 件 中 的 基 个 是 否 为 真 - 例如 , 也 许 学 生 的 成 绩 寺 


用 字母 分 级 表示 ， 而 不 是 用 下 格 或 不 及 格 来 表示 。 以 下 用 一 个 条 件 结构 根据 学 生 的 
平均 分 来 指定 一 个 字母 成 绩 ; 


2E Tavg >- 30) 总 TadB = "本 ) 
后]8 生 E faswg >= 80) gzraae -= “"B" 
所 1S IE Iavg >= 01 GTaade = “ 吕 " 


司 ]8E if favg >= 60) graae =- " 
皇 1Se race = “ P 己 " 


这 


谋 读 注意 到 的 一 个 重 归 事 情 是 , 这 种 连续 条 件 具 有 当 一 个 条 件 表达 式 计 算 结 果 为 真 
时 才 停 目 求 值 , 这 时 将 跳 过 其 他 的 条 件 . 如 果 没 有 一 个 条 件 表 达 式 的 计算 结 昌 为 真 ， 
将 执行 星 后 的 else 部分， 运行 默认 操作 ， 在 这 种 情况 下 将 为 grade 赋值 “F"。 


条 件 操作 符 
awk 中 提供 的 条 件 操作 符 可 以 在 C 语言 中 找到 ， 它 的 形式 为 ; 


expr ?了 acticon7:actIon3 


前 面 的 简单 else 条 件 叮 以 用 条 件 操作 符 改 写成 : 


Grade - 1 av >= 65 )93 "bass" :Fat 


条 件 、 御 环 和 数组 2% 





这 种 形式 更 简洁 而 且 适 侣 于 上 面 所 未 的 简单 的 条 件 .?: 操 作 符 可 以 霸 套 使 用 ， 这 样 
做 将 导致 种 序 不易 阅 读 。 为 了 清晰 ， 建 议 将 条 件 用 加 括 苇 括 起 来 ， 如 上 例 所 示 。 


循环 


循 乓 是 一 种 用 于 -重复 执行 一 个 或 多 个 操作 的 结构 . 在 awk 中 循环 结构 可 以 用 While、 
to 或 for 语 句 来 指定 。 


While 循环 
While 循环 的 语 站 是 : 


While (Conditionmy 


BCLIOD 


右 圆 括号 后 面 的 换行 是 可 造 的 。 条件 表达 式 在 循环 的 顶部 进行 计算 、 如 果 为 真 ， 就 
执行 循环 体 acton 部 分 。 如 果 表 和 达 式 不 为 真 ， 则 不 执行 循环 体 。 通 常情 况 下 ， 条 件 
表达 式 的 值 为 真 并 执行 循环 位 , 在 循环 体 中 改变 某 一 值 , 直到 最 后 条 件 表 达 式 的 值 
为 假 并 退出 循环 。 例如, 如 果 希 望 执行 一 个 循环 体 4 次 ,可 以 编写 下 面 的 循环 语句 : 
1 -1 
whi-e ti<-41 1 
TY 名 守 


++ 


} 


就 像 让 语句 一 样 ， 当 循环 体 由 多 个 语句 构成 时 必须 将 它们 放 在 大 括号 中 。 注意 每 个 
语句 的 作用 。 第 -个 语句 是 为 ij 页 初 值 。 表 达 蕊 “ii <= 4” 用 于 比较 1 和 4 的 值 以 决 
定 是 否 执行 循环 体 。 这 里 的 循环 体 由 两 个 语句 组 成 ,一 个 语句 简单 地 打印 字段 各 的 
值 , 另 一 个 语句 递增 i 的 值 。 i 是 - ' 个 计数 器 变量 , 用 来 跟踪 循环 次 数 。 如 果 我 们 没有 
递增 计数 器 或 条 件 - 直 不 为 假 (例如 i> 0):， 那么 这 个 action 将 被 不 停 地 重复 执行 ， 


Do 逢 环 
Do 循环 是 while 循环 的 一 个 变型 。De 循 蒜 的 语法 为 : 


一 一 一- 一- 
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人 0 
吕 扬 二 ID 


While 《cocoany 


do 后 而 的 换行 星 可 选 的 。 如 果 acticma 后 面 使 用 分 号 ， 则 换行 也 是 直选 的 ， 这 个 结 
村 的 主要 部 分 是 action 后 面 的 条 件 表 达 式 condition。 因 此 ， 循 环 体 至 少 执 行 一 次 ， 
和 参 匈 下 面 的 do 循 坏 。 
BECIN 了 
Qc 1 
Tak 眉 


】 while tt <= 4 ) 
了 


在 这 个 例子 中 , x 的 值 在 循环 体 中 被 自动 递增 操 抵 符 赋值 , 循 坏 体 首先 执行 “次 , 然 
后 条 件 表达 式 惰 求 值 在 前 面 的 while 循环 的 例子 中 ,，i 的 初 值 在 循 忒 的 前 面 对 值 ， 
首先 求 条 件 玫 达 式 的 值 ， 然 后 执行 一 次 循环 体 。 请 注意 我 们 在 运行 上 面 的 例子 时 x 
的 值 : 


awWK ~ 上 dn .awk 


S$ 
1 
习 
3 
4 
5 


在 条 件 表达 式 被 计算 之 前 , 被 递增 为 1 (这 是 由 于 awk 中 的 变量 实际 上 都 讶 初 始 化 
为 0)。 这 个 循环 体 被 执行 了 5 次 而 不 是 4 次 。 当 的 值 为 4 时 条 件 表达 趟 为 真 ， 循 
环 体 又 被 执行 , x 递 增 到 5 并 打 钱 它 的 值 , 这 时 条 伞 才 达 式 的 值 为 假 并 退出 箱 环 , 将 
操作 符 “<=” 改 为 “<"， 妈 小于， 循环 体 将 运行 4 次 。 


请 记 住 ae 循环 和 whie 社 环 之 间 的 区 别 , do 循环 至 少 执行 一 次 循环 体 。 在 循环 的 底 
部 可 以 决定 是 否 再 次 执行 。 


例如 , 我 们 来 看 一 朗 循 永 访问 记录 中 字段 的 程序 , 读 释 序 将 尽 可 能 多 地 访问 字 盘 直 
到 宅 们 的 总 数 达 到 100 为 止 。 我 们 使 用 do 儿 丰 的 原因 是 因为 可 以 至 少 访问 一 个 字 
段 . 我 人 将 访问 的 字段 值 加 到 total 上 , 当 总 数 total 超过 100 时 就 不 再 访问 其 他 的 字 
段 . 只 有 当 第 一 个 字段 的 值 小 于 100 科 才能 访 司 第 一 个 .将 它们 的 值 再 加 到 total 上 ， 
当 总 数 total 超过 100 时 退出 循环 。 如 果 它 仍然 小 于 100， 将 再 次 执行 循环 。 
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Letal = 1 = 站 
OD 工 
十 + 工 
[OFaL "= SS 
} while fceocal <=- 100 ) 
Print 守 ，”:”， 七 Gt 忆 二 


】 


程序 的 第 “ 行 初始 化 两 个 变量 : total 和 让 循 征 递增 i 的 值 并 用 字段 操作 符 引 用 一 个 
特定 的 字段 。 循 蒜 每 执行 一 次 ， 将 引用 :个 不 同 的 字段 。 当 第 . -次 执行 循环 时 ，, 字 
段 引用 得 到 “个 字段 的 值 并 将 该 值 赋 给 变量 total. 循 让 志 昆 的 和 象 件 表 达 式 用 于 判断 
total 的 值 是 否 超过 100。 如果 是 ， 将 结 柬 循 乓 。 然 后 将 变量 夺 的 值 ， 即 所 访问 的 字 
段 的 个 数 ， 以 上 及 total 打印 出 来 【这 个 脚本 假设 每 个 记录 的 字段 总 和 至 少 是 100, 否 
则 ， 将 不 得 不 检测 i 的 值 使 得 它 不 超过 记录 中 的 字段 的 个 数 。 我 们 将 在 下 面 一 部 分 
for 循环 中 构 洁 这 样 的 测试 ) , 
下 面 是 包含 一 系列 数据 的 测试 文件 : 

己 Ca 上 七 B 七 . 加 吕 

45 25 80 20 

10 105 50 4 


33 5 67 
108 3 5 灶 


对 该 铀 试 文件 中 运行 以 上 脚本 得 到 下 列 结果 ; 
af 区 -下 局 -让 WK 七 已 和 七 . 忆 避 


3 : 

了 :115 
几 

工 
对 每 个 记录 ， 仅 访问 字段 的 总 和 大 于 100 的 。 


For 循环 


for 语 句 是 同 while 循 环 一 样 ， 能 鱼 得 到 相同 结果 的 一 个 更 紧 由 的 语法 形式 。 尽 管 它 
看 起 来 比较 困难 ,但 其 语法 使 用 更 简单 并 能 保证 提供 -个 循环 所 需要 的 所 有 元 素 。 
focr 循环 的 语法 为 : 
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for Set_eounter : tesc_cpunter ; DCrement_counter ) 


忆 CEIOD 
布 圆 括号 后 面 的 换行 症 可 选 的 。for 循环 由 3 个 表达 趟 组成: 


3 了 个 详 王 交 严 

设置 计数 器 变量 的 初 值 。 
IST CO 到 着 FE 

措 述 在 循环 开始 时 要 测试 的 条 件 。 
访 CFeCHNHEPE TO 到 下 在 上 


每 次 在 外 环 的 底部 递增 计数 器 ， 旦 恰好 在 重新 负 试 kst_counrter 之 前 。 


下 面 来 看 使 用 for 循环 打印 输 人 行 的 每 一 个 字段 。 


for (1 -< NT Sa 1) 
CiLmE 号 1 
和 在 前 面 的 例子 中 一 样 , 是 个 灾 量 ,使 用 字段 操作 符 引 用 一 个 字段 。 系 统 变量 
NEF 是 当前 输入 记录 中 的 字段 的 数量 . 这 里 用 它 来 确定 是 否 i 已 经 到 过 了 行 的 最 后 一 
个 字段, 变量 NE 的 值 是 循环 重复 的 最 大 次数. 在 循环 体 中 执行 priat 语 句 , 打印 本 
行 的 每 个 字段 。 使 用 这 种 结构 的 脚本 可 以 打印 一 行 中 的 每 个 单词 ， 然 后 可 以 使 用 
sort | mnia 统计 每 个 文件 中 单词 的 分 布 。 


也 可 以 编写 “个 循环 按 从 最 后 一 个 字段 到 第 一 个 字段 的 次 序 来 打印 ， 


tor 【1LL = Mi>=- 1 1-- ) 
PRELnL 当 1 


循环 每 运行 一 次 计数 器 递减 1。 林 以 用 这 个 循环 反 转 字段 的 位 置 。 


我 们 前 面 见 到 的 色 ades,awk 肢 本 是 用 来 计算 5 个 成 绩 的 平均 值 , 可 以 将 这 段 于 本 改 
号 为 可 以 计算 任意 个 数 的 平均 值 以 使 它 更 通用 。 也 就 是 说 ,如果 要 用 这 个 脚本 来 处 
理 一 个 学 年 的 成 绩 . 那么 需要 处 理 的 成 绩 的 数量 将 增加 。 这 里 不 用 修改 邯 本 来 适应 
特定 的 字段 的 个 数 , 而 是 编号 一 个 通 甫 的 隆 本 来 循环 读 取 已 有 任意 多 的 字段 。 这 有 段 
程序 的 早期 版 本 使 用 两 个 语句 来 计算 5 个 成 绩 的 平均 值 : 
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上 CCtal = 32 153 1154 53 -36 
av 可 = < Qtal ”5 


我 们 将 它 修 改 为 用 “个 for 循环 来 侣 计 记 录 的 每 个 字段 。 


上 Dra- = 站 

ter { 人 -2 <= RNF: ++Hi) 
七 忆 七 三] + = 号 工 

avg - LOLoL ， INMEFE -17 


我 们 每 次 都 初始 作 变 莉 total ,因为 我 们 不 想 将 一 个 记录 的 值 同 下 一 个 记录 的 值 累 计 
在 一 起 。 在 for 循环 的 开始 将 计数 器 1 初始 化 为 2， 因 为 第 一 个 数 裤 字段 是 2。 每 特 
媳 一 次 将 当前 字段 值 累 加 到 total 中 。 当 访 吕 最 后 一 个 字段 后 〈i 的 值 大 于 NF 时 )， 
结束 循环 并 计算 平均 值 . 例如 ,如果 “个 记录 由 4 个 字段 组 成 , 循环 第 -次 将 92 的 
值 赋 于 total。 人 在 循环 结构 的 底部 ，i 递 增 1， 并 与 NF 比较 【NE 的 值 为 4)。 表 近 式 
的 值 为 真 同时 将 $3 的 值 累 加 到 total 中 。 


注意 ,我 们 用 总 数 除 以 字段 总 数 的 个 数 减 1， 以 将 学 生 姓名 字段 排除 。“NF-1” 两 迪 
的 贺 插 号 是 需要 的 , 否则 , 由 于 除法 操作 符 的 优先 级 高 于 减法 , 所 以 将 用 NEF 除 total 
然后 再 减 去 1， 而 不 是 先 计 算 NE 减 去 1。 


求 阶乘 


一 个 数据 的 阶乘 是 由 该 数 累 乘 小 于 这 个 数 的 堵 得 到 的 结果 .4 的 阶乘 是 4 x 3 x 2 > 
1, 或 24。5 的 阶乘 是 4 的 阶乘 的 5 倍 或 5 x 24， 或 120。 求 一 个 给 定数 的 阶乘 可 以 
用 下 面 的 循环 计算 : 

<aet = TUmbper 


fo 人 (x = nuUmpber -1 上 X >11 X--) 
王 aCL w= 世 


这 里 的 number 古 我 们 要 计算 阶乘 得 ct 的 那个 数 。 假 设 number 的 值 为 35， 执行 第 
一 次 独 环 时 x 的 值 为 4, 计算 “5 x 4” 并 将 结果 赋值 给 fact。 下 一 次 执行 循环 时 ，x 
的 值 为 3， 将 其 与 20 相 乘 并 将 结果 赋值 给 fact. 衢 环 一 直 重 复 到 x 的 值 为 1 时 结束 ， 


将 上 面 的 穆 序 插入 到 一 全 独 立 的 脚本 中 , 提示 用 户 输入 .个 数字 并 打印 这 个 数字 的 
阶乘 。 


awk “ 井 返回 用 户 指 定数 宇 的 防 系 
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BBCGTN 
#+ 使 用 “printzi” 而 不 是 “Print” 提 示 用 户 ， 从 而 避免 换行 
PEInLE “Enter mumper: ") 

] 


# 翌 相 用 哺 输 入 的 数字 
SO 3 
# 将 S1 的 倩 上 结 numper 利 fact 
Durmoer = 二 1 
FE (nurper == 了 0 
Lact = 工 
忌 荆 Se 
Eact = Tumoey 
# 循环 累 乘 face < x 直 到 x- 1 
for (tx = murber -17 X >1) X--) 
TSaCLE #= 区 
站 工 半 二 1"The 芋 acEOriBL oOE 8 18 克利 WwW" Dumber，FEact) 
# 由 出 一 - 键 ACcRTL-D 保存 用 户 输 和 
息 基 上 上 


】 


# 如 果 不 是 数字 ， 再 玖 提示 

上 FintETY AInVBL1G enEYTY .EYE 站 number: ") 

本 
这 是 一 个 有 趣 的 例子 , 在 主 输入 循环 中 提示 输入 并 读 取 标准 输入 端的 回答 .BEGIN 
规则 用 于 提示 用 户 输 人 一 个 数据 . 因为 我 们 已 经 规定 输入 内 容 不 是 来 自 一 个 文件 而 
是 来 自 标 淮 输入 ,所 以 系统 和 输出 提示 后 ,将 暂停 以 等 待 用 户 输入 数据 。 第 一 个 规则 
是 而 试用 户 是 否 已 经 输入 了 数据 , 如 果 役 有 用 第 二 个 规则 提示 有 书 户 重新 输入 一 个 数 
据 。 我 们 设计 了 一 个 循环 ， 用 于 从 标准 输入 重复 读 人 数据 ,直到 和 输入 一 个 合法 的 数 
据 为 止 。 参 见 下 一 部 分 中 的 Iookup 程序 ， 该 程序 是 另 一 个 构造 输入 循环 的 例子 。 


下 面 的 例子 中 显示 了 factorial 程序 是 如 何 工作 的 : 
会 主意 七 魏 工 到 工 


EDEer nurmber: 5 
Tae factorial cE 5 js 二 2 


注意 ,结果 用 “多 BE ”转换 说 明 来 格式 化 printf 语 句 。 这 使 得 用 地 点 数 表示 法 可 以 表 
示 很 大 的 数 ， 看 下 面 的 例子 : 


要 王 上 四 七 Or 吕 
Enter numhbe: 33 
THhe 十 actoriail of 33 1 量 . 右 肌 33 了 白 43 下 
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影响 流 控制 的 其 他 语 名 
您 可 以 用 计 、while、for 和 do 语句 来 收 变 程序 的 正常 控制 流 。 在 本 节 中 ， 我 们 将 看 
到 另外 几 个 也 能 够 影响 控制 流 的 语句 。 


在 一 个 循环 中 有 两 个 请 句 可 以 影响 控制 流 ，break 和 continue。Break 语句 顾 名 思 
浆 就 是 退出 循环 , 这样 备 不 再 继续 执行 循 不 。eontinne 诸 句 在 到 达 循 环 底部 之 前 终 
正当 前 的 循环 ， 并 从 循环 的 顶部 开始 一 个 新 的 循 坏 。 


考虑 以 下 程序 段 将 得 到 的 结果 ; 


for (X= 1: 区 <=- NE ++X ] 
1E 1Y== SS )1{ 
PITILnL X， 氏 
DTYeak 
】 
TImE 


该 程序 创建 了 一 个 循环 来 检查 当前 输入 记录 的 各 个 字段 。 每 循环 一 次 ,将 了 的 值 和 
由 $x 引用 的 字段 值 比较 。 如 果 结 果 为 真 , 则 打印 这 个 字段 的 编号 和 值 并 退出 循环 。 
执行 下 一 个 语句 Print。Break 语句 的 应 用 意味 着 我 们 只 对 这 行 的 首次 匹配 感 兴趣 ， 
而 不 希望 循环 处 理 剩余 的 字段. 


下 面 是 应 用 ceontinae 语句 的 例子 : 


tetr (XXX=- 1: 和 <=- NE HH4X ) 
ii 人 ==- 3 
DTImUE 
PEImL 区 多 江 


】 


这 个 例子 通过 对 当前 记录 的 字段 的 循环 访问 ,来 打印 字段 的 编号 和 它 的 值 . 但 是 (由 
于 些 原因 ), 我 们 希望 避免 打印 第 三 个 字段 。 使 用 条 件 语 名 检测 计数 器 变量 , 当 它 
等 于 3 时 ,执行 continue 语 句 。continue 语句 将 控制 返回 到 循环 的 顶部 ,重复 递增 
计数 器 变量 . 这 避免 了 本 次 循环 执行 Print 语句. 可 以 通过 改写 条 件 , 妥当 x 不 等 了 于 
3 时 执行 print 得 到 同样 的 结果 。 这 里 要 说 明 的 是 ， 可 以 使 用 econtinae 语句 避免 在 
特定 的 循环 中 达到 循 坏 的 底部 。 


有 两 个 语句 能 影响 主 和 输入 循环 ,next 和 exit。 next 语 句 能 够 导致 读 人 下 一 个 输入 行 ， 
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半 返 回 到 脚本 的 顶部 【 注 1)。 这 可 以 吕 免 对 当前 输 人 行 执行 其 他 的 操作 过 程 .next 

证 名 的 夏 型 应 用 是 串 以 连续 从 文件 中 读 取 内 容 , 忽略 脚本 的 其 他 的 操作 直到 文件 被 

读 完 。 系 统 变 基 TILEN4AME 提供 了 当前 文件 的 名 字 。 因 此 ， 可 以 如 下 编写 模式 : 
FILENaMF -- acronyms' 1{f 


1 
I1 忆 区 十 


1 了 YL 了 


这 使 得 对 文件 acroryms 的 每 行 都 执行 action 指 定 的 操作 . 当 完成 操作 后 , 输入 下 一 
个 新 行 。 只 有 当 从 币 同 的 文件 输入 内 容 时 榨 制 十 执行 print 语句 。 


exit 语句 使 主 输入 循环 天 出 并 将 稼 制 转移 到 了 ND 规则 ， 如 果 END 存在 的 话 。 如 果 
流 有 定义 END 规则 , 或 在 END 中 应 用 exit 语句， 则 终止 脚 本 的 执行 。 我 们 在 前 面 
的 程序 faetorial 中 ， 使 用 exit 语句 实现 当 和 输入 一 行 后 退出 程序 


ex 让 语句 可 以 使 用 一 个 表达 式 作为 和 参数， 该 表达 式 将 作为 awK 的 退出 状态 返回 。 如 
时 没有 提供 表达 式 ， 那 么 多 返 回 0。 如 果 为 exit 语句 设置 一 个 初 值 ,然后 在 END 中 
再 次 油 用 没有 参数 的 exit， 则 使 用 第 一 个 值 ， 例 如 : 
&wk ” 工 
exalt 3 
} 
END 1 exlt } 


这 里 ，awkr 的 吉 出 状态 是 3。 


齐 后 面 的 章节 中 你 将 看 色 应 用 这 些 控制 流 语 句 的 一 些 例子 。 


数组 


烙 给 是 可 专用 来 存储 一 组 数据 的 变量 .通常 这 些 数 据 之 间 县 有 某 种 关系 。 数组 中 的 
每 一 个 元 素 通过 它们 在 数组 中 的 下 标 来 访问 。 每 个 下 标 都 用 方 括号 括 起 来 。 下 面 的 
语句 表示 为 数 给 中 的 个 元 素 赋值 。 





注 1: 一 些 awk 不 允许 你 在 用 户 定义 的 本 堵 中 用 Dext 语 名 ，Caveat emptor。 
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arrayr[subpscrIpt] = _ value 


在 awk 中 不 必 指 明 数 组 的 大 小 , 只 需要 为 数组 指定 标识 符 : 向 数组 元 素 赋值 是 最 容 
易 完 成 的 。 例如， 下 面 的 例子 中 为 数组 fiayor 的 -个 元素 指定 了 一 个 字符 串 


“eherry”。 
Ilawor[1L - sherry" 

这 个 数组 元 素 的 王 标 是 “1"。 下 面 的 语 名将 打印 字符 串 “eherry”， 
Pient tlavcrii] 


可 以 用 循环 疝 数 组 中 与 人 或 取出 元 素 。 例 如 ， 如 果 数 组 flavor 有 5 个 元 素 ， 可 以 编 
写 以 下 循环 来 打印 每 个 元 素 : 
f] avwor、ceumnt = 5 


for 人 = 1 Xe< = 1avor court +1XI 
Pzint 十 LawoT [X] 


在 awk 中 , 数组 的 一 个 应 用 方式 是 存储 每 个 记录 的 值 , 用 记录 的 编号 作为 数组 的 下 
标 ,假设 我 们 想 跟 踪 计 算出 的 每 个 学 生 的 平均 成 绩 ,并且 计算 出 一 个 班 的 平均 成 钙 。 
每 读 人 一 个 记录 我 们 将 做 下 面 的 工作 : 


student_avg[NRA] = av9 


系统 变量 NBR 作为 数组 的 下 标 是 因为 对 于 每 个 记录 它 是 递增 的 。 当 读 人 第 一 个 记录 
时 ，ayg 的 值 被 放 普 到 student_ayg[1li]; 对 于 第 二 个 记录 ， 它 的 慎 被 放置 到 
student_#YS[2]; 依次 类 推 。 当 我 们 将 所 有 的 记录 读 人 后， 将 在 数组 flavor 中 生成 
一 个 平均 值 列 表 。 在 END 规 则 中 , 我 们 可 以 使 用 -全 循 环 来 将 所 有 这 些 平 均 分 数 相 
加 并 除 以 NR， 得 到 这 些 成 绩 的 平均 值 。 于 是 我 们 可 以 将 每 个 学 生 的 平均 成 绩 和 全 
班 的 平均 成 绩 比较 , 计算 出 大 于 或 等 于 绊 均 分 的 学 生 人 数 以 及 你 于 平均 分 的 学 生 人 
数 ，。 
ENE 1 


for (< = 1 x <= NMR x+4+1 
它 1 昌 SS_ aaVG_EotBalL += Stuaent_ avc[ 关 ] 


刀 ] 有 站台 包 _ 忆 VEITaGE = 安 1aSS3_ av 可 上 ctal ”RNR 


for 【区 = 1: X < MMR，X++HI 
让 《Student avg[x] >= 局 1 辣 BB_aVGYBSe) 
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十 + 忆 昌 局 W 已 _ 忆 娄 世 工 总 林 忠 
忆 ] 5 所 
+ +bPEJTODW_ Bwerag 己 


下 上 In "BaSsS _Wr 人 上 SG " ， 己 1a8S、，werad 己 
PrinE “让 丰 DT 站 DVP 瑟 V 全 日 可 已 :  ，， 昌 jPOVE_ 忆 YET 己 台 局 
有 FEImE “下 斌 局 困 直 几 应 革 总 己 ”有 b 呈 工 癌 W_ 半 V 旺 3 坷 二 


】 


以 上 程序 设置 了 两 个 循环 来 访问 数组 元 素 。 第 -个 循环 是 将 所 有 的 平均 分 相 加 以 恒 
除 以 学 生 记 录 数 。 第 二 个 循环 检索 每 个 学 生 的 平均 成 绩 ,， 以 便 和 全 班 的 平均 成 绩 相 
比较 。 如 果 大 于 或 等 于 全 班 平 均 成 绩 ， 则 递增 变量 above_average， 否 则 递增 变量 


below_average 。 


关联 数组 


在 awk 中 ,所 有 的 数组 都 是 关联 数组 .关联 数组 的 独特 之 处 在 于 它 的 下 标 可 以 是 
个 字符 串 或 - -个 数值 。 


在 大 多 数 的 编程 诺言 中 ,数组 的 下 标 都 是 惟一 的 数字 。 在 这 些 语言 中 , 数组 是 存储 
数据 的 一 系列 存储 单元 。 数 组 的 下 标 来 自 数 在 数组 中 存 情 的 次 序 。 没有 必要 跟踪 数 
组 的 下 标 。 例 如， 数组 中 的 第 一 个 元 素 的 下 标 是 “1” 或 呈 数组 的 第 一 个 位 置 。 


关联 数组 在 数组 的 下 标 和 元 素 之 间 建 立 了 一 种 "关联 " .对 于 数组 中 的 每 个 元 素 都 有 
两 个 相关 的 值 : 元 素 的 下 标 和 元 素 的 值 。 这 些 元 素 不 像 传统 的 数组 那样 按 一 定 的 硕 
序 存 储 。 尽管 在 awk 中 的 数组 的 下 标 也 可 以 是 数据 型 的 , 但 是 这 些 下 标的 刻 久 和 其 
他 编程 语言 中 所 表示 的 意 交 不 同 筷 们 不 一 定 代表 数 的 位 置 。 然 而 ， 对 于 数值 
型 下 标 ， 也 能 够 闫 序 访问 数组 中 的 所 有 元 素 , 就 像 我 们 在 前 面 的 例子 中 所 完成 的 一 
样 。 你 可 以 创建 一 个 循环 来 递增 计数 器 并 按 顺 序 访问 数组 元 素 。 





有 了 时， 数值 型 和 字符 型 下 宗之 间 的 差别 是 很 重要 的 . 例如， 如 果 用 “04” 作 为 数组 
中 - :个 元 素 的 下 标 , 就 不 能 用 “4” 作为 下 称 来 定位 这 个 元 素 . 在 后 面 的 章节 中 , 你 
将 看 到 在 示例 程序 data_month 中 如 全 处 埋 这 个 问题 ， 


关联 数组 是 awk 中 一 个 独特 的 特征 , 它 的 一 个 强大 功能 就 是 可 以 使 用 字符 串 作 为 一 
个 数据 的 下 标 。 例如， 可 以 使 用 一 个 单词 作为 下 标 来 查找 它 的 定 多 。 如 果 你 知道 这 
个 单词 ， 你 就 可 以 检索 到 它 的 定义 。 
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合 如 ， 可 以 使 用 下 面 的 赋值 语句 来 将 输入 行 的 第 一 个 字段 作为 第 一 个 字段 的 下 标 : 
rrayts13 -7 
使 用 这 种 技术 ， 我 们 可 以 将 首 字母 缩写 启 列 表 泽 人 到 acro 数组 中 
已 CITD[S1L| = 2 
数组 中 的 每 个 元 素 都 是 首 字母 纳 写 词 的 描述 ,而 用 于 检索 元 素 的 下 标 就 是 首 字母 缩 
写 词 本 身 。 
下 面 的 表达 式 ， 
BCrS[ "BASIC ] 
结果 为: 
RESInnET'S 包 ]1 -burPose Symboltc TJnstructiom Code 


有 - 仿 特 殊 的 循环 语法 可 以 访问 鞠 联 数组 的 所 有 元 素 。 它 是 for 循 环 的 . -个 版 本 ， 


forf variabye in array 》 


Go SometDiDG TI arrai varzaPplael 


arrgy 是 一 个 数组 名 字 。variable 是 一 个 变量 ， 可 以 将 它 看 做 和 普通 for 循环 计数 器 
一 样 递增 的 临时 变量 。 这 个 变量 在 每 次 循 所 时 被 嵌 于 -个 特殊 的 下 标 【 因 为 
variable 是 一 个 随意 的 名 字 ， 你 会 经 常 看 到 使 用 item， 当 数组 被 写 信 时 可 以 用 任 
何 变量 名 作为 下 标 )。 例 如 ， 下 面 的 for 循环 打印 首 字母 缩写 词 item 的 名 字 以 及 读 
名 字 所 对 应 的 定妆 acro[itemj] 。 


Eor ( 二 tetm im cr ) 
DTimL IEert， 电 C 荆 口 [ 斌 盛 Em] 


在 这 个 例子 中 , 打印 语句 打印 当前 的 下 标 【 例 如 “BASIC”)， 随 后 是 用 这 个 下 标定 
位 的 acro 数组 的 元 素 。 


这 个 语法 可 以 应 用 于 使 用 数值 型 下 标的 数组 。 但 是 ， 访问 数组 中 的 条 目的 顺序 是 随 
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机 的 { 广 2)。 在 awk 实现 四 这 种 顺序 经 常 发 生变 化 , 任 细 编写 你 的 程序 使 得 它 不 依 
四 上 awk 的 什 闪 版 本 。 


重要 的 是 需 时 记 作 awk 中 的 所 有 数组 下 标 都 是 字符 串 类 型 .即使 使 用 数字 作为 下 标 ， 
awk 将 白 动 将 它们 转换 为 字符 绅 。 当 使 用 整数 作为 下 标 时 也 椒 必 担心 ,因为 它们 也 
被 转换 成 字符 串 ， 相 管 这 些 数据 是 QEFMT (awk 的 原始 版 本 和 新 awk 的 早期 版 本 ) 
还 是 CONVYEMT (POSIX awk)。 但 是 如 果 使 用 实数 作为 下 标 , 那么 向 字符 串 的 转 
换 可 能 会 有 影响 。 例 如 : 

号 gawk BEGTM { data [1.23] == "3.21" 上 CONVFMT =- “"%d" 


2 RE “<% 呈 >AEn ata [1 .23]117 


屏 匀 


这 里 ， 在 尖 括 号 中 没有 打印 任何 东西 ， 因 为 在 第 二 个 请 句 中 二 23 被 转换 为 工 ， 而 
4ata["L”] 的 值 为 空 串 . 





注意 : 当 一 个 数值 两 次 调用 之 中 CONVFMT 发 生变 化 时 ， 并 不 是 每 个 版 本 的 awk 都 将 数值 转 
换 为 字符 串 的 。 用 你 所 用 的 awx 测试 上 面 的 例子 确保 它 能 正确 工作 ， 





现在 让 我 们 回 逢 计算 学 生成 绩 的 俩 子 上 .我们 想 公布 获得 “A” 的 学 生 是 多 少 ， 蓝 
得 “B” 的 学 生 是 多 少 等 等 一 旦 我 们 明确 了 等 级 ， 我 们 就 能 够 递增 相应 的 等 级 计 
数 器 。 可 以 为 每 个 字 脏 等 级 设置 不 同 的 变 基 并 测试 哪个 可 以 递增 。 


E 人 Sraqe == "点 " )} 
+ 十 吕 工 总 四 已 二 

人 LS 1f 【zaae ==- "B* ) 
+ 十 对 工 日 名 所 有 


然而 , 用 数组 实现 这 个 任务 更 容易 。 我 们 可 以 定义 -个 名 为 class_grade 的 数组 , 并 
用 字母 等 级 【从 4 到 F) 作为 数组 的 下 标 。 


++ 吕 】 豆 召 5_ 杂工 二 d [本 Tadel 


广 2: 在 《The AWK Programming Language)》 中 使 用 的 技术 术语 是 “imblementation 
depBerdent” 





1 ee 
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因此 ， 如 果 等 级 为 “Aa” 那 么 elass_grade[“*a>*T 的 值 递增 1。 在 程序 的 末尾 我 
们 在 本 ND 规则 中 用 特殊 的 for 循 让 来 打印 这 些 值 : 


OF 【LeLTRST_ Ga PP CES 语 _ 避 TaGe) 
Pr1aHL 工 忆 -七 司 Y， 休 : 避 日 已 1， ] 站 5S_ 可 上 站 本 = [工程 上 上“ 生 _ 划 菩 这] | "gert 


每 次 通过 循 斥 变 明 letter-gradge 指定 数组 class_grade 的 一 个 下 标 。 输 出 被 传送 到 
sort 中 ， 以 确保 按 上 正确 的 顺序 输出 等 级 【将 输出 传送 给 各 序 将 在 第 十 章 ”底部 抽 
层 ` ”中 讨论 ) 因为 这 是 向 grages'awk 称 序 由 最 后 添加 代码 ,我 们 可 以 参见 完整 的 
清单 。 


开 grades.awk -- 计算 学 后 的 平均 成 绩 开 确定 
在 宁 舟 等 级 以 攻 全 筑 平 雹 成 顷 。 
# slL = 学 沾 镍 名 ;32 -SF = 测试 成 绩 。 


# 将 蒜 出 衬 段 的 分 昭 符 设 成 制 表 符 


BFRGIN :+ DEFS = "EL”)} 


# 对 所 有 的 输入 行 所 质 行 的 操作 
tt 
# 黑 计 成 绩 
上 oraL = 中 
for (IT= 2 1 <=- NEFE: ++i ) 
= 妆 二 aa += 
# 计算 平均 值 
av = 环 吕 5al TINF -1) 
# 将 学 牛 的 平均 成 绩 虐 给 数组 元 素 
szZuUQenc_avg [NR]1 => ar 了 
# 确定 字 址 等 级 
FE avg >=951 grace = “" 皇 " 


忆 LSe if [fav > 一 80)S9raae = "B” 
后 18 fasv 昌 >= 70)9raas = “0 
B1Se E (avg >= 601GIage = “ 口 " 


记 13 剖 后 TRE = “已 
# 递增 宇 挟 等 级 数组 计数 
++ 妆 1 as3_ raae jzrade ] 
# 打印 学 生 姓 名 ， 平 均 成 绩 和 字母 等 级 


BTiIDt $1，avwg， 妆 rat 


上 
# 打印 全 得 的 统计 情况 
END { 
# 计算 全 但 的 平均 成 绩 
foT {X = 1:， 其 <= NMNR X++ ) 
它 二 引号 EE_ 记 7 七 已 [1 += SLSent_av 可 {X ] 
避 ]aSsS_ avwerage = f]aSsS_avG_ cotal 上 民 
# 确定 多 少 大 超过 7 低 上 平均 分 
for (fx -工区 == NR; xXrh+ 1】 
了 二 【SSEUCSen 上 _ ay7 可 【区 ] =>== 局 总 写 3_ 到 V 全 上 总 可 忆 ) 
十 十 本 也 必 YE 已 WEL 忆 台 马 
已 工 名 它 
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二 十 世人 1 已 W_ 电 VET 电 可 尼 

# 打印 结果 

BYiIz  ” 

他 放 二 用 上 “让 号 下 w 生 下 疝 林 后” 中] 忆 号 S_ 己 厅 全 世 自己 

EDF “中 上 后 袜 站 pw 让 站 WEa 口 忆 :是 吕 全 _ 忌 WE 世 后 华 

FIDmE “BELOW 册 WVETBSE ”DelLaow_averade 
# 打印 每 个 字母 淖 级 的 学 牛 烙 

EoTr 【LeLteTr_Srade in ClLass_ 吕 raadel 

REjzt 二 e 七 七 ET 后 a 昌 Be "5 Caee graae [1 人 tter 人 守 ra 林 各 ] | "号 如 基 廿 " 


以 下 是 使 用 样本 数据 的 运行 结果 : 


屿 ”已 避 七 是 工 程 了 已 生 - 世 忆 号 七 

mcna 0 7 了 3 685 83 70 台 9 

John 8o 32 ?8 94 88 91 

anmgrea 89 5950 95 94 90 35 

jaszper 8 38 880 93 器 4 号 2 

dunce 54 8D 0 站 区 > 

LlliS 30 98 89 96 96 32 

六 WIIK - 主 可 蕊 生 本 已 日 , 居 杂 其” 训 工 忌 弛 全日 。 七 妃 日 妃 


TSDD 妃 了 了 鲁 尼 
John 虽 澡 也 
anareaa 30.5 五 
了 asPer 如 5 也 
aune 扣 有 4.5 了 
eLliSs 93.5 计 


位 ] 站 写 吕 只 W 生 工 考 g 已 : 站 3. 和 4 和 折 7 
县 C OF 上 boVe 庙 weTEGE 租 
Belew Average: 2 

直 立 
卫 : 2 
安 工 
疡 工 


测试 数组 中 的 成 员 资格 
关键 词 虽 也 昆 一 个 如 作 符 ， 用 在 条 件 表 达 式 中 来 油 试 一 个 下 标 是 否 是 数组 的 成 员 。 
表达 式 为 : 

Pem IT 忌 工 工 3 


如 果 array[item] 存 在 则 返回 1， 理 则 返回 0。 例 如 ， 如 果 字 符 串 “BASIC” 是 数组 
acro 的 下 标 ， 以 下 的 条 件 玫 达 式 将 为 真 。 


IE 【1 "IaSTC” In acrco ) 
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上 -TIL “Feuna RaSIC 
如 果 “BASIC” 是 -个 可 用 来 访问 aero 匹 素 的 下 标 , 则 以 上 条 件 返 加 True。 但 这 个 
语 蕉 无 共 告 拆 你 "BASIC” 是 否 是 argro 中 无 素 的 值 . 这 个 表达 式 和 编写 一 个 循环 -… 
样 可 以 答 利 下 标 症 否 存 在 ， 也 基 上 血 的 表达 式 重 容易 编 气 ， 而 有 执行 效率 吏 商 ， 





词汇 检查 脚本 


这 个 程序 从 命名 为 gilossary 的 文件 中 读 入 一 系列 词汇 ， 并 将 它们 放 到 - -个 数组 中 。 
程 片 提示 用 户 输入 一 个 凋 汇 术语 ， 如 果 找 到 了 它 ， 则 打印 根 应 的 术语 的 定义 。 


以 下 是 lookup 程序 代 由 ， 


awk “# TI=okup - - 沪 归 本 地 的 术语 文件 并 提示 用 几 理 询 


总 
RFGIN {1 FEB = ti DEFES = ”MA 

# 提 夫 用 六 

石 工 工 世 二 在 人 FRImEET 疝 芭 ] 必 站 站 二 y 士 rImI “ 
} 


#f1 读 取 本 地 净 件 了 LossarY 

FTJDENAME ==- “9Lossarv ”1 
# 将 所 essary 的 秆 个 记 距 全 人 划一 个 数组 中 
emLry[Sll = S2 
台 其 L 

} 


#+2 搜索 直上 站 程序 的 命令 
SO ”YatGnit|[qe]iexit| [xsl)1S7 1 exar 


#3 入 加 非 涪 行 
S0 1 
IF TSD En Entry | 
上 存放， 打印 定 总 
pFiIIL en [30] 
上 | 所] 所 
BFInL SD0 not founc' 


#1 旬 导 所 广 输入 -个 术 请 
{ 

ETrinzTI ELeT 和 DOiDer 可 LSSaTY erm [站 上品 quztf) 3 1 
本 DSSsary 一 
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以 上 穆 序 为 模式 匹配 规则 进行 了 编号 以 便 讨 论 。 我 们 将 按 它们 在 程序 代码 访 中 出 现 
的 顺序 来 计 认 它们。 规则 姑 是 BEGIN 规则 ， 它 在 任何 输入 被 污 取 前 只 执行 : -次 。 
它 将 FS 和 OFS 设置 为 制 表 符 并 提示 用 户 输入 “个 词汇 条 上 月 .用户 的 响应 来 自 标准 
和 输入 , 但 这 是 在 8tossary 文件 之 后 读 和 人 的。 





规则 灵 油 试 当前 的 文件 名 (FILENAME 的 值 ) 吓 否 是 “gloessary”， 并 且 只 有 当 从 这 
个 文件 读 取 了 时 才 执 行 。 这 个 规则 将 局 汇 条 日 写 人 一 个 数组 : 


EmtLrY [七 erIm] = GezIniLicn 


这 蛙 $1 旦 术 请 ,而 $2 是 定 浆 。 在 #1 末 尾 的 next 诸 名 用 于 在 程序 中 跳 过 其 全 规则 并 
读 人 一 个 新 行 。 因 此, 在 Siessemy 文 件 的 所 有 条 日 都 被 环 入 后 才 接着 应 用 其 他 的 
规则 ， 


一 瑟 读 完 81essery 中 的 所 有 内 容 ，awk 将 从 标准 输入 中 读 取 , 因为 在 命令 行 中 指定 
了 “- “号 . 标准 输入 即 用户 的 响应 。 规 则 礁 测 试 输入 行 《$0) 是 否 非 空 。 只 要 用 
书 键 入 了 任何 内 容 , 该 规则 就 能 匹配 。 其 中 的 操作 使 用 血 来 三 试 输 和 人行 是 否 是 数组 
的 一 个 下 称 。 如 果 是 ,只 简单 地 打印 出 相应 的 值 ， 当 则 告诉 用 户 没 有 发 现 有 效 的 条 
日 。 





在 规则 #3 之 后 将 继续 执行 规则 殉 。 这 个 规则 只 是 简单 地 提示 用 户 输入 另外 一 个 术 
泣 。 不管 在 规则 要 中 是 欣 处 理 了 一 个 有 效 的 条 上 日， 规则 # 都 将 被 执行 。 这 里 的 提 
示 还 告诉 用 户 如 何 终止 程序 ， 测 试 宅 这 个 规则 后 ，awKk 将 寻找 下 一 个 输入 行 。 


如 果 用 户 在 下 一 个 输入 行 键 人 “q"” 来 选择 退出 ， 规则 刀 将 被 匹配 。 模式 将 搜索 用 
户 在 一 行 上 可 能 输入 的 用 十 退出 的 各 种 单词 或 单个 字 址 .“^” 和 “$"” 很 重要 , 规定 
输 人 行 除了 包含 这 些 外 没有 其 他 的 字符 ， 否 则 将 会 匹配 在 词汇 中 出 现 的 “q". 注意 
这 个 规则 在 所 有 规则 中 的 位 置 是 很 重要 的 。 它 必 须 在 规则 #3 和 规则 #4 之 前 出 现 , 因 
为 这 些 规则 有 可 能 和 任何 东西 匹配 ， 包 括 单词 “quit” 和 “exit”。 





让 我 们 来 看 看 释 序 是 如 何 工作 的 。 对 于 这 个 例子 , 我 们 将 文件 aeromryms 复 制 一 份 并 
用 它 作为 Biossamy 文件。 
3 ecDP CORDYImB 可 二 和 号 日 已 TY 


SS Dekup 
Fnrer 6 可 -Pasary Cerm: IGO 
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仑 中 Fa 可 ein， 可 3TbbaG 局] 

FTTeY OHmet 全 16bSLy term (可 to onit): BaABIC 
Recinner ae 下- -Eurpose Symbolic TrstrcLiLcc CodE 
宇 -CPDarYy 上 Erm id Te eol 总 


LI ES PooTTPT 
正 如 我 们 所 看 到 的 、 这 段 程序 用 十 不 停 提 泉 用 娘 添 加 条 日 ， 直 到 用 户 键 人 了 “9 。 


注意 , 这 段 程序 可 以 很 容易 地 修改 为 读 取 文件 系统 中 任何 位 置 的 间 汇 . 包括 用 户 要 
目录 。shel] 脚本 调 几 awk 可 以 处 理 命令 行 选 项 使 得 用 户 可 以 规定 词 污 广 件 名 。 你 也 
可 以 读 耻 共 皇 的 词 沪 文件 ,然后 读 取 本 地 的 词汇 文件 , 通过 编写 独立 的 规则 对 其 进 
行 处 理 ， 


用 splitO) 创 建 数组 


内 界 胃 数 5plitO 能 够 将 任何 字符 串 分 解 到 数组 的 元 素 中 。 这 个 国 数 对 于 从 字段 中 提 
取 “ 子 字段 ”是 很 有 用 的 。 国 数 splitO) 的 语法 为 : 


也 = 各 让 上 工 芋 《 呈 相 天 卫 正邦 。 忌 半 庆 且 。 号 所 站 六 号 大口 斑 } 


0 是 要 被 分 解 到 名 字 为 array 的 元 素 中 的 输入 字符 串 。 数组 的 下 标 共 ! 开始 到 了 ， 
P 即 为 数组 中 苞 素 的 个 数 ,元 素 根据 指定 的 separutor 分 隔 符 来 分 解 。 如 果 设 有 指定 
分 隔 符 ， 那 么 将 使 用 字段 分 隔 符 【ES )。seperator 可 以 是 一 个 完整 的 正则 表达 式 ， 
而 不 仅仅 是 单个 字符 。 数组 的 分 解 与 字段 的 分 解 相 同 , 参阅 第 七 章 中 的 “字段 的 引 
用 和 分 离 ” 部 分 。 


例如 ， 如 果 记 录 的 第 一 个 域 由 人 的 全 名 组 成 . 岂可 以 用 spltO 国 数 抽取 人 的 名 字 和 
姓氏 。 下面 的 语句 将 第 - -个 字段 分 解 为 赋 给 数组 faliname 的 元 素 : 


-spat1s1，tuzlnamc，， "| 

这 里 将 空格 规定 为 定 界 符 。 人 的 名 字 可 以 如 下 让 向 : 
fullname 1 

入 的 姓氏 可 以 如 于 访问 : 


Eullianmelz] 


一 一- 一- 
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因为 z 包 含 数组 中 元 素 的 个 数 。 不 管 人 的 全 名 中 是 末了 世 含 中 间 名 , 记 神 方法 都 适用 。 
如 果 = 是 由 split0 返 回 的 值 ， 则 可以 编写 -个 箱 环 来 读 取 数组 的 所 有 元 素 。 
Z = SP-rISl，arrawr， "1) 


tor ! -1 =- ci +L) 
DBPrinz ~，array[il 


下 一 -部 分 包含 应 用 spiO 辆 数 的 其 他 示例 。 


格式 转换 


这 一 部 分 举 了 两 个 例子 ， 演 示 了 将 输出 从 种 格式 转换 为 另 一 种 格式 的 相似 方法 。 


当 运 行 第 士 二 章 “ 嫁 全 应 用 ”中 的 索引 程序 时 ， 我 们 需要 一 个 快速 的 方法 将 罗马 数 
字 冉 值 给 列 编 号 。 换 句 话说, 在 索引 中 的 第 四 列 需要 被 指定 为 下 标 中 的 “IV” . 因为 
需求 的 列 编 号 没有 超过 10 的 ， 我 们 编号 了 一 段 程序 丢 本 . 输入 到 10 之 间 的 数字 
并 转换 为 风 马 数字 。 


这 个 shell 答 序 从 命令 行 中 获取 第 一 个 套数 并 将 它 作为 输入 返回 给 awk 程序 。 


echo S1 | 
awk “# Fomanum-- 特 1-10 忆 了 癌 的 数字 转 摘 为 凡 志 数字 


并 鸭 罗 呈 数 衬 荆 10 定 区 列 天 numeralas 
3EGTN 1{ 

# 为 如 乌 数 空 的 列表 创建 数 纤 numerals 

3PL321 IT IIII,IVVWVIT, VEIIT,VLIIT，IX,X"，numerals， "1 
了 


# 得 找 1-10 之 提 的 数据 

SS > 口 5 <= 10 
# 打印 指定 的 元 素 
BITInE DuUmeTraT 名 TS1] 
全 XT 


1 PrinE "mvyalia rurkber" 
XI 
1 
谈 个 程序 定义 了 上 10 个 婴 乌 数 字 的 一 个 列表 ， 并 使 用 splitO 将 它们 写 人 到 名 为 
mumerals 的 数组 由 - 因为 这 一 操作 只 需要 执行 - -次 , 所 以 写 在 3EGIN 操 作 模 岂 中 。 
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第 一 个 规则 潭 试 输 入 行 的 第 - -个 域 是 再 包含 一 个 处 十 1 到 10 之 闻 的 数字 。 如 果 是 ， 
这 个 数字 被 作为 数组 nmmerals 的 下 标 , 并 查找 相应 的 元 素 。exit 语 句 用 于 终 目 这 个 
程序 .只 有 当 没有 有 效 条 目 时 寺 执 行 最 后 一 个 规则 ， 


下 例 说 明了 它 的 执行 情 阅 : 


上 IImaInUI 二 
工 隐 


以 下 程序 按照 相 问 的 妃 路 将 日 期 格式 从 “mm-dd-yy” 蕊 “mmydd/yy” 转 换 为 “月 
日 ， 年 ”。 


KE “ 


# gate-renth 将 有 期 梢 式 mmeadaryy 或 mm-dd-yy 转换 为 月 ， 目 ， 作 的 格式 


# 创建 二 份 列 去 并 输入 到 数组 

BEGIN ! 
# 第 3 步 工 作 是 为 了 在 节 中 打印 
1LEtrmonths = “了 已 DURTY， PEEITUSEY ,人 ErChy April ,May une， 
LTLStmorths = 11Stmonths “JUIY,augus- ,Benptemer，， 
Lisrmoncns = 11stmonths October November ,December， 
5 iTILLS-months，monch，".") 

1 


# 贡 试 是 再 有 答 人 
S1 1 1 


# 将 用 “7” 分 隔 的 第 一 个 字段 分 解 为 数组 元 素 


号 工 Z 后 口 于 太 YFaw = SPDP1LiLL1SL，Qate， 7 


# 出 试 是 震 只 返 阿 -个 字段 
上 【sl1ZeDOtarTray = 一 11 
上 分解 晶 “一 ”分 是 的 字段 
品 - 世 所 站 下 ATTBYW = EDITSL，dake。 "1 
# 可 能 是 无 获 鸣 
JIT sizeciarray -=- 1]) 
尼 习 二 七 


# 将 9 与 月 价 的 数据 相 加 来 强制 改变 数据 数 型 
aate [11 :+- 


# 打印 月 日 ， 年 
ipTint monthicaate[1])，(Qaate[23〗 "，19"qacre[3]1 
1 


这 颖 脚本 从 标准 输入 中 读 取 ，BHBEGIN 操作 建立 了 一 个 各 为 moa 二 的 数组 ， 它 的 元 
素 是 -年 中 月 份 的 名 宇 。 第 二 个 规则 用 士 检验 输入 行为 非 空 。 其 相关 的 操作 中 第 一 
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个 语句 查找 “ 分 隔 符 并 分 隅 出 输 人 的 第 - :个 字段 、sizeOfarray 中 也 人 省 基数 组 中 
元 素 的 个 数 , 如 果 awk 不 能 分 解 这 个 字符 串 , 它 将 创建 只 有 -个 元 素 的 数组 。 因 此 ， 
我 们 可 以 副 试 sizeDfarray 的 值 来 确定 有 上 几 个 无 素 ， 如 果 不 包 含 多 个 丈 素 ， 那 么 我 
们 假设 也 许 是 使 用 “-” 作 为 分 隐 符 。 如 果 不 能 分 解 角 多 个 元 素 , 则 认为 输入 是 非 小 
的 , 并 退出 . 如 果 我 们 成 功 地 将 输 和 分解 贸 数组 中 , 那么 date[1] 中 包含 代表 月 份 的 
数据 . 这 个 值 能 用 役 煞 组 momth 的 下 标 , 即将 一 个 数组 聊 套 到 另 一 个 数组 中 。 然而 ， 
不 使 用 date[ 扣 过 前 ,我 们 强制 地 将 date[ 了 加 上 0 以 改变 其 类 型 。 因 为 awk 将 “11” 
正确 解释 为 :个 数字 ,而 带 前 导 0 的 数字 会 被 看 做 为 -个 字符 串 。 因 此 , 没有 强制 
燃 型 转换 的 “06” 不 能 被 正确 地 识别 。 由 date[ 红 引用 的 元 素 被 作为 oath 的 下 标 。 


下 例 是 运行 情 六 : 


gs aceho "5A1L1755"” | date-mormnrh 
JMaY ]1，【 尘 5 


删除 数组 元 素 


awk 提供 了 一 个 语 馈 几 于 从 数组 中 副 除 一 个 雹 素 。 语 法 是 : 
delete srzaf subsecript] 


这 里 的 方 括号 是 必需 的 。 这 个 语句 将 删除 arrey 中 下 标 为 5zpseript 的 元 素 。 特别 地 ， 
使 用 舌 测 试 swbscript 将 返回 为 假 。 这 与 为 数组 元 素 献 一 个 空 值 是 不 同 的 , 在 这 种 情 
况 下 种 将 一 直 为 趴 。 参 见 下 一 章 中 使 用 delete 语句 的 脚本 示例 ， 


首 字母 缩写 词 处 理 器 


现在 我 们 来 看 -个 程序 , 它 的 功能 是 浏览 一 个 文件 中 的 首 字 脉 缩写 闻 。 每 全 首 字母 
缩 气 闻 都 被 替换 为 “个 详细 的 描述 . 并 将 首 字 母 缩写 词 放 在 圆 插 号 中。 如 果 有 一 行 
是 “BASIC”， 我 们 将 用 描述 “Beginners All Purpose Symbolic Ingtruction Code” 
来 代 赤 ,并 将 首 字 母 缩写 语 写 在 后 面 的 圆 括 寻 中 【该 程序 本 身 可 能 设 有 什么 用 , 但 
是 在 读 程 序 中 使 用 的 技术 是 很 普遍 的 ， 并 有 许多 这 样 的 应 用 )。 
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我 们 叮 以 将 这 个 程序 设计 成 - :个 过 滤器 , 用 于 打印 所 有 的 行 , 而 不 管 这 些 行星 右 做 


了 改变 。 我 们 插 这 个 程 片 称 为 awkro， 


awk “并 wx -由 民风 首 字 二 纲 写 襄 
# 将 首 字 母 铺 委 训 文件 写 人 伸 数 组 “aceo” 中 


FILEINAIE -- “ 忆 CemTizmS 上 
SP]12T1SD0，SmLIY， 7 
acrcofemLry .LI]] = entry[2] 
门 EX 


} 


# 处 理 世 售 人 2 宇 母 的 所 有 输 和 大 行 
7 [点 -2 Ta-E 1 
# 测 让 是 下 存在 首 字 和 母 缩写 国 的 宇和 让 
For 1 = 17 1 <- NET + 
让 ES in ecre ) 了 
# 胡 果 相 匹 权 ， 将 它 的 措 还 语 加 进去 


= CEIC 『 当 1 


# 打印 记 有 的 行 
Drint SD0 
”CTDDYInS 号 * 


我 们 首先 来 看 它 的 执行 情况 。 这 里 使 用 了 一 个 样本 输入 文件 sample。 


睫 “CC 色 本。 站 矶 山中 荆 扎 

The USGCRP 工 5 日 Comprehensiwe 

TeSearch eftert +thatr inrluaes abPILeO 

去 民 网 他】 五 号 也 已 忆 C 工人 研 让 郑 Ch 

The NESE PEOSTaI MiSSiILOn 上 口 FLamet 下 arth 

工 呈 DT 人 SenTtE tne PRrinclpal SPace-baseQ component 
D- FEhe TSGCRP and includaes mew iniriarlvweS 

号 UKD 已 吕 瑟 如 ES 0 虽 了 arthEDEODeES 





下 面 是 文件 ecroenymzs: 


1 

USCCRP [L. 呈 ， 避 Joba_ Rhange Researceh Pregdrarn 

打 衬 S 玉 katIonal ReraorlsuLLe and SPacE QtinmiSstration 
下 必 E FartLh DObservImng SygsteI 


现在 我 们 在 样本 文件 上 运行 以 上 程序 。 


宁 wkroO Ba 二 己 


The 口 . 旺 .全 Ional Change ReSSSaLCh PrOGYam (USGCRP) ia 日 Compzehensive 


工 仑 叶 记 TCD 全 EOFL 十 at 1nTNUOeSs 中 P1iea 
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号 WE 工 中 PaSszP eseare 

人 全 的 关切 下 站 二 融和 开怀 丰 3 全 司 丰 时 号 冲 症 Pe 呈 习 TIm1 吕 证 T 昌 十- Bi 《人 下 及 员 ) 巴 ” 癌 生 芋 昌 mL 
HL5SILOT LO Paner EartDo 

了 让 世上 站 SCTEE OO 上 CTPEL SPaCe-Dbased 关 DmRCORT 圭 

让 三 和 DRPaE Pa 可 已 RESEaTCH EDGITBST 【DEGREE and dtTuUQED 了 me 多 
2 L1ELTUW3 


总 ULCR 三 呈 下 本 TD 站 DameLwaT 可 SSyorem ROSS anq9 EsrLnerobes， 
我 们 将 分 两 部 分 来 看 这 个 程序 ， 第 一 部 分 是 从 文件 eeronymz 中 读 取 记录 。 


村 将 交 作 acronyrmrs 写 和 到 数组 “acrzo” 中 


上 IILENAML =- “CIonYyms' 1 
SRLI1IEISD，EPttwy， 七 ")} 
arolen-rylLl] - encry[2l 
门 全 区 


】 


将 这 些 记录 的 两 个 字段 写 人 到 一 个 数组 中 , 其 中 将 第 一 个 字段 作 为 下 标 而 将 第 一 个 
字段 赋 给 数组 的 -个 元 素 。 换 一 句 话说 ， 首 宁 母 缩写 词 是 它 自 己 的 描述 的 索引 。 


注音 ,我 们 役 有 改变 域 分 随 符 ， 而 是 使 用 split0O 范 数 来 创建 数组 entry。 然 后 用 这 
个 数组 创建 数组 acro， 


下 面 是 程序 的 第 二 部 分 : 


# 处 息 也 售 大 呈 李 有 母 的 所 有 输入 行 
2 [总 -名 ] [站 - 写 ] 
# 测试 关 否 存在 某 些 字 段 是 首 字 厚 峭 呈 启 
or fi = 1 =- 区 FE Ye+) 
让 fsSin aero ) 1 
己 刀 上 DiuyTm = 扣 主 
# 记 
Si = aciro[sI]l "1 SEE "1 


上 二 ED 所 有 行 
PrJnL S0 
} 


只 有 在 “ 行 中 包含 多 个 连续 的 大 写字 母 时 , 才 使 用 以 上 程序 段 中 的 另 -部 分 操作 进 
行 处 再 , 这 “部 分 操作 用 循环 处 理 记录 的 每 个 字段 。 这 部 分 操作 的 核心 部 分 是 使 用 
条 件 语句 铀 试 当前 的 字段 〈 竺 ) 是 否 是 数组 【acre) 的 一 个 下 标 。 如 果 是 ， 则 用 数 
组 中 的 元 素 化 不 相 应 的 字段 ， 而 将 原始 值 放 于 图 括号 中 《字段 可 以 被 赋予 新 值 ， 和 
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- 般 的 变 夸 一样) 注意 将 首 字母 颖 写 词 的 换 述 播 人 记 洒 行 中 会 太 长 .参看 下 “ 章 中 
将 讨论 的 Ilenght) 罗 数 , 这 个 因数 可 以 确定 一 个 了 符 串 的 长 度 , 如 果 字 符 串 开 长 则 可 
以 分 隔 访 字符 趾 。 


现在 我 们 来 改写 这 个 程序 , 使 得 它 只 在 第 一 次 出 现 首 字 尽 缩 妇 词 时 进行 赫 换 。 当 发 
现 一 个 首 字母 缩写 词 后 不 再 寻找 该 词 . 这 是 很 容易 仇 到 的 , 我 们 只 需要 从 这 个 数组 
中 删除 这 个 首 字 么 缩 号 问 就 可 以 了 。 








If TSL Im actDe ) 
# 刘 | 果 匹配 ， 将 它 的 描述 添 昌 进去 
SS = aero[Si "7 计 ) 
+# 这 个 首 字 母 绽 写 词 只 扩展 次 


旭 PLete ato[aCcraorlwm] 


还 可 以 用 其 他 的 好 方法 进行 修改 .在 运行 awkre 程 序 时 ,我 们 很 快 会 用 现 如 果 在 首 
字母 缩 们 闻 后 边 跟 :个 标点 符号 ， 那 人 么 匹配 就 会 和 失败。 我们 最 初 的 处 理 方 法 是 在 
awk 中 根本 不 处 理 它 .而 是 使 用 两 个 sed 脚本 ， 一 个 用 于 向 预 处 理 : 


号 和 3 
另 一 个 用 于 做 最 后 处 理 : 


SGE SA 站 BBvi[ 313Y7ALAGY 


在 和 运行 awk 之 前 调用 一 个 sed 脚本， 可 以 简单 地 在 标点 符号 前 插 人 一 个 空格 ， 使 标 
点 符号 能 饶 被 作为 … 个 单独 的 字段 来 解释 . 另外 插 大 … 个 由 无 用 的 符号 ( @ 人 @@ 包 ) 组 
成 的 字符 串 ， 使 得 我 们 能 够 容易 地 识别 和 恢复 标点 符号 【在 第 一 个 secd 命令 中 的 揽 
杂 的 表达 式 ， 可 以 确保 我 们 匹配 在 “ 行 中 包含 多 个 标点 符号 的 情况 )。 


这 种 使 用 UNIX 工具 箱 中 另 一 个 工具 的 解决 方案 , 表明 了 不 是 每 一 件 事情 都 需要 用 
awk 过 程 来 解决 。 而 在 awk 过 程 中 不 需要 散 任 何事 情 。awk 更 有 价 值 是 因为 它 是 包 
含 王 UNIX 环境 中 。 


但 是 在 POSIX awk 中 可 以 用 不 同 的 解决 方案 ,即使 用 正则 表达 式 来 匹配 首 字母 缩写 
词 ， 这 种 方法 可 以 使 用 下 一 章 中 讨论 的 国 数 mateh0 和 sub() 来 处 理 。 
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多 维 数组 

awk 到 持 线 性 数组 .在 这 种 数组 中 的 每 个 元 素 的 下 标 是 单个 下 标 。 如 果 你 将 线性 数 
组 看 成 臣 “ 行 数据 , 那么 两 维 数组 将 表示 数据 的 行 和 列 。 你 可 以 将 第 三 行 第 一 列 的 
煞 据 元 素 表 示 为 “array[3,2]"。 两 维和 三 维 数 组 是 多 维 数 组 的 例子 。awk 小 支 持 多 
维 数组 , 但 它 为 下 标 提 供 了 一 个 语法 来 模拟 ?上 用 多 维 数组 。 例 如 , 你 可 以 如 下 编号 
表达 式 : 


fle_array:gai -61 

这 里 的 每 个 输入 记录 的 宇 段 使用 记录 编号 和 字段 号 做 下 标 。 因 此 ， 可 以 如 下 表示 : 
坟 ]e_array12,4] 

这 将 得 到 第 二 个 记录 的 第 四 个 字段 的 值 。 


这 个 语 芒 不 能 创建 多 维 数组 . 它 锌 转换 为 一 个 字符 趾 来 惟一 识 册 线性 数组 中 的 元 素 。 
多 维 数 组 个 标的 分 量 被 解释 为 单独 的 字符 串 (例如 “2” 和 “4"),， 并 使 用 系统 变量 
SUBSEP 的 值 来 连接 . 下 标 分 量 的 分 了 辣 符 默认 地 被 定 史 为 “\034", 这 是 -一 全 不 可 打 
印 的 且 在 ASCI 文本 中 很 少 出 现 的 字符 , 到 此 ，awk 只 包含 一 维 数 组 而 前 面 的 例子 
的 下 标 实际 为 “20344”( 使 用 SUBSEP 将 “2” 和 “4” 连接 起 来 )。 模 拟 多 维 数组 
的 主要 后 果 是 数组 越 大 , 访问 个 别 的 元 素 就 研 慢 .然而 你 可 以 使 用 你 自己 的 应 用 程 
序 来 测试 不 同 的 awk 实现 的 时 间 ， 


以 下 是 一 个 命名 为 bitmap.awk 的 awk 的 脚本 示例 ,用 于 展 永 如 何 向 多 维 数组 写 人 
避 读 出 元 素 。 这 个 数组 表示 宽度 和 高 度 为 12 个 字符 的 位 图 。 


BEGIN 1{ FS =“," 井 用 逗号 分 隔 字 息 
# 股 早 位 图 的 寅 和 高 
WIPma -= “2 
FREIGHT - 12 


# 有 抽 相 三 将 “90” 写 人 整个 数组 
for 人 1 = 17 二 <- 戎 LDTH，++yh 
iot 人 = 1 <== JEIGHE t+) 
Bitmap [1 ] = "6" 
相 


# 从 xy 污 应 输入 

[ 
# 将 “x” 赋 给 数组 的 那个 区 秦 
世 工 七 加 让 蔬 [有 1， 史 了 ] = “只 " 
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】} 
# 在 未 器 输出 多 礁 数 纪 
ED 1 
tor fi = -~- <= WIDTH; +*1) | 
tor 上 门 -< NEUGIT 


EPE 二 TtE 1 多 3 -mabD[i， ji 


# 在 每 行 后 而 ， 打 印 个 换行 符 


ELmLEE 1 
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在 读 取 侍 何 输入 之 前 ， 将 “9O” 沁 人 到 bitmap 数组 的 所 有 元 素 中 。 这 个 数组 有 144 


个 元 素 。 向 这 个 程序 的 输入 是 一 系列 的 公 标 ， 每 行 一 个 : 


习 昌 七 也 守 tmaP .七 白 电 证 


友和 
一 


了 0 ,1 
了 工 , 工 】 
] 阅 ，1 


上 
户 ， 
Pa 


全 Un 本 


洛克 门 


对 每 个 华 标 ， 程 序 使 用 “X” 来 在 换 该 位 置 的 数组 元 素 值 “D"。 在 脚本 药 末 尾 使 用 
与 妃 人 数组 同样 的 循环 来 输出 数组 。 下面 的 例子 从 文件 iimap.iez 中 读 取 输入 ; 


S WwWK 一 天 巧 写 SP . 帮 WX 上 十 七 攻 扣 切 .七 日 扫 七 
XODOGOODOCODODXK 
DZXODOOOOOOOXOD 
CDXODODDODXOCOD 
DOOXOODOXDOD 
CDODRODO2DODD 
DOUDCXXCOOOOC 


rr Ar rear rmiE Tidi ii hr 一 
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DODQCXXADCOO 
DODCOODXEDOC 
DOOXOODOXDCD 
DOXKDCOCDDGACC 
DOXDOOODOOCXC 
ZEDOCDORCODODOR 


多 维 数组 的 请 法 也 支持 测试 数组 的 成 员 资格 。 下 标 必 须 放 置 在 圆 括 导 中 。 
让 12) aa arzayl 
这 可 以 宙 试 下 标记 让 实际 上 是 iSUBSEP j) 是 否 在 指定 的 数组 中 存在 。 
对 多 维 数 组 的 循环 操作 和 维 数 组 相同 ， 
fer (icenm 1n araavl 
你 必须 用 splitO 胃 数 来 访问 单独 的 下 标 分 量 。 即 : 
SD1itTLLem SPscr，3UBSEEP) 


以 上 spPIitO 骸 数 使 用 下 标 item 创建 数组 subser， 


注意 ， 我 们 厢 前 面 的 例子 用 伐 套 循环 来 给 出 两 维 位 图 数组 ， 因 为 需要 维护 行 和 列 。 


作为 系统 变量 的 数组 


awk 中 提供 的 两 个 系统 变量 ， 它 们 是 数组 。 


点 肥 避 有 
这 是 一 个 命令 行 参 数 的 数组 , 不 包括 脚本 本 身 和 任何 调用 awk 指定 的 选项 , 这 
个 数组 中 的 元 素 的 个 数 可 以 失 ARGC 中 获得 ， 数 组 中 第 一 个 元 素 的 下 标 是 0 
《和 awk 中 的 其 他 数组 不 同 ， 而 和 fC 一 致 )， 最 后 一 个 下 标 是 ARGC-1. 
ENYIRON 


一 个 环境 变量 数组 , 数组 中 的 每 个 元 素 是 当前 环境 变量 的 值 . 而 其 下 标 是 环境 
变量 的 名 字 -。 
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AZ 一 
命令 行 参数 数组 
你 可 以 编写 :个 御所 来 访问 ARGY 数组 中 的 所 有 元 素 。 
旧 = 旨 训 - 辣 四 了 [有 全 信行 僚 数 
BEGN 1 Tor 人 = 0 区 = ARCCT ++ 区 ) 
Pr2nt nmRGWw 基 ] 
Edinmfr ARGC 
】 


这 个 例子 也 打印 出 了 ARGC 的 值 , 即 命令 行 参 数 的 个 数 。 下 面 的 例子 显示 了 上 倒 对 
一 个 命令 行 样本 是 如 和 何 处 理 的 : 

SSWwK -人 二 区 vaWK ]23 生 “Jehmn Waymaa 何 e 昌 上 rna D=44 一 

互 W 区 

二 之 了 

TeCnm Wayme 

全 ES 全 站 呈 


=dd 


可 以 看 出 ， 这 个 数组 中 有 6 个 元 素 。 第 一 个 元 素 是 这 个 命令 的 名 称 ， 用 于 调用 指定 
的 脚本 。 在 这 种 情况 下 ， 最 后 一 个 参数 是 文件 名 ,“-” 胡 示 标 准 输入 ， 注 意 “-f 
argv-arwk” 有 出 现在 参数 列表 中 。 


在 通常 情况 下 ，4RGC 的 值 不 小 于 2。 如 果 你 不 希望 引用 程 崎 名 或 文件 名 ， 你 可 以 
将 计数 器 初始 化 为 1 并 测试 4RGC-T 以 避免 访问 最 后 一 个 参数 (假设 这 里 只 有 一 个 
文件 名 )。 


注意 ， 如 果 你 在 shell 脚本 中 调用 了 awk， 命令 行 的 参数 将 传递 给 shell 而 不 是 传递 
给 awk。 你 必须 将 shell 脚本 的 命令 行 参 数 ， 传 递 给 在 sheH 烤 本 中 的 awk 程序 。 例 
如 你 可 以 用 “$*” 和 将 shell 脚本 中 的 所 有 命令 行 参 数 传 递 给 awk。 参见 下 面 的 shell 
脚本 : 

aa 

# argv.sh - 打印 命令 行 参 数 

RFGIN 1 

foTr 人 = 0 X < 有 RSGC ++X) 


Peint RGV[IX ] 
PrIFt RGBGC 
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这 个 shell 脚本 和 第 一 个 调用 awk 的 例子 所 熏 的 工作 一 样 。 


-个 实际 的 用 法 是 在 BEGIN 过 程 中 ， 用 正则 表达 趟 来 测试 命令 行 参数 。 在 下 面 的 
例子 中 测试 除 第 一 个 参数 外 的 其 他 所 有 参数 为 整数 。 


T nunperewk - 测试 命令 行 参 数 


EECGZI 1 
TOF KE = 1) 六 二 遇 RGC 5XT 
1 1 ARGVIX] 17 [9 革 
BFinL RGW[X]， "站 DOE aaI 1LTHegGBr." 
白 XTE 1 


上 


如 果 和 参数 中 包含 古 数 字 的 字符 ， 程 序 将 给 出 提示 并 退出 。 


车 铀 试 了 某 个 值 以 后 ， 当 然 可 以 将 它 睹 给 . -个 变量 。 例 如 ， 我 们 可 以 编写 一 个 
BEGIN 过 程 ， 在 给 出 提示 . 之 前 检查 命令 行 参数 。 参 见 下 面 的 shell 妓 本 ， 该 脚本 使 
用 了 前 高 章节 的 电话 号 码 和 地 址 数据 库 : 


awk *# 找到 每 个 人 的 电话 号 码 
# 在 命令 行 或 提示 倍 置 上 提供 人 名 
BEGIN { FS = "，， 
# 表 找 参数 
IT RSGC > 3) 1 
Dame - 大 REV[L] 
QeletE 大 RGVTL] 


else 【 
# 循 坏 直 钊 得 到 一 个 人 名 
whileEe (1 name 1{ 


PEinLE( "EnYSt 总 Darmter 
意 所 二 二 了 了 全 ame <" 


站 
] 
$ 一 Rarmee 
PEFinc S1，SMF 
上 Phones .要 忆 七 冯 


我 们 通过 短 试 变量 4RGC 来 看 参数 个 数 是 个 大 于 2, 通过 指定 “$*” 可 以 将 shell 命 
令 行 的 所 有 参数 传递 给 awk 的 命令 行 ， 如果 机 供 了 参数 ， 我 们 假设 第 二 个 套数 
ARGY[II] 是 我 们 所 需要 的 ， 那 么 将 它 赋 给 变量 name。 然 后 将 这 个 参数 从 数组 中 删 
除 。 这 是 非常 重要 的 ， 如 果 命令 行 上 提供 的 这 个 参数 不 是 “var=value" 形式 ; 否 
则 ， 它 将 在 随后 被 解释 为 文件 名 。 如 果 提 供 了 另外 的 参数 则 将 会 被 解释 为 可 选 的 
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电话 号 码 数据 库 的 文件 名 。 如 果 参 数 的 个 数 小 于 2， 那 么 我 们 将 提示 输入 名 字 。 
getline 画 数 将 在 第 十 章 讨论 ; 使 用 这 个 语法 ， 可 以 从 标准 输入 中 读 人 下 一 行 。 


面 是 这 个 脚本 的 儿 个 运行 的 示例 ; 


3 3hone John 

CH RbDRODDm 和 昌 下 -0D 区 3 

S BEhone 

EmteT 司 me 瑟 荆 并 安 已 

已 iCE Gel TYR7) 了 2 站 

3 了 hone 有 芋 Ce BIT CeT 巧 IT 有 1 7 DTHOO 疡 芒 当 是 所 
县 11ee WWSaLeOI 【17 SS9-0RDD 

机 人 站 DO 1 有 1 了 2 


第 -个 例子 在 命令 行 上 提供 了 名 字 , 第 -个 提示 用 户 , 第 三 个 给 出 两 个 命令 行 参数 


且 将 第 .个 作为 文件 名 (这 个 脚本 不 允许 在 没有 给 出 人 加 的 情况 下 提供 文件 名 。 当 
热 ， 你 可 以 设计 “个 测试 以 允许 这 个 语法 )。 


因为 可 以 在 4RGY 数组 中 话 加 和 删除 , 因此 有 许多 潜在 的 有 趣 的 处 理 。 例如 , 你 可 
以 把 文件 名 放置 在 数组 的 末尾 ,这样 就 可 以 像 在 命令 行 中 指定 的 一 样 被 打开 。 同样 
地 ， 你 也 可 以 从 数组 中 删除 文件 名 , 那么 它 将 永远 无 法 打开 。 注 意 , 如 果 向 ARGY 
中 添加 元 素 . 也 必须 递增 ARGC; awk 使 用 ARGC 的 值 来 得 到 上 ARCGV 中 有 多 少 元 
素 可 以 处 理 。 因此， 简单 地 递减 丸 了 RGC 将 使 awk 丰 能 检测 到 ARGY 中 的 最 后 一 个 
元 素 。 





在 特殊 的 情况 下 ,如 果 ARGY 的 元 素 的 值 是 -个 空 种 (" ") ，awk 将 跳 过 它 并 继续 
处 理 下 一 个 元 素 。 


环境 变量 数组 


数组 ENVIRON 被 分 别 添 加 到 gawk 和 MKS awk 中 .然后 被 添加 到 System YV 
Release 4 nawk 中 ， 现 在 被 包含 在 POSIKX 标准 的 ax 中 。 它 允许 你 访问 环境 变量 。 
下 面 的 程序 循 坏 访问 了 数组 ENVIRON 的 所 有 苞 当 并 进行 打印 。 





# eswviron-awk - 打印 环境 变 蝶 
BEGIN 
tor Tenvw 1r ENVIRON 1 
BTrmc env =" RNwIRON Tenvj 
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数组 的 下 标 是 变 最 的 名 字 。 该 脚本 产生 与 emy 命令 相同 的 输出 〈 在 一 些 系统 中 是 
printeny ) 。 

3 awk - 芋 它 DViroOn-awk 

DISDP2aT=aryrbe:n0n 

FaME=-SPhel] 人 

DGO 呈 M 二 = 日 二 1] = 

ATT- USLT nc 上 cl 

BATH-z2B1n3 SEO asr Ucb woOIR Di racpny 。 

裤 FR 人 一 种 站 安居 关 

HOME - ”wOT 攻 CE 所 

SHEDDL= Rn CS 

斌 2 一 卫 号 工 生 也 万 下 

已 了 IO- Sr nimny vd 


可 以 使 用 变量 名 作为 数组 的 下 标 访问 任意 匹 素 
ENVIROR [DCNAME 

也 上 串 以 修改 数组 ENVYIJRON 中 的 任意 元 素 : 
ENVIRON1I DOENRME"] - “Temy" 


但 是 这 个 修改 并 丰 改 变 用 户 的 真实 环境 【例如 ， 当 执行 完 awk 时 ，LOGNAMRE 的 
值 没有 变化 }， 同 样 也 没有 改变 程序 的 环境 ， 这 些 程序 旦 awk 使 用 getiine() 或 
system 人 调用 的 ，getline0 和 system0 将 在 第 十 章 讨 论 。 


这 - 章 包 含 了 许多 重要 的 程序 结构 。 你 在 以 后 章节 的 例子 中 将 会 看 到 对 这 些 结构 的 
应 用 。 如 果 你 对 编程 还 不 熟悉 ， 则 应 该 花 -~ 些 时 间 来 运行 本 丫 的 示例 并 做 些 完善 ， 
而 且 庶 该 自己 编写 :些小 程序 。 这 是 基 基 本 的 ,就 像 如 何 使 用 动 闻 -… 样 , 你 将 会 沉 





“本章 疯 容 、“ ， 
生 卉 1 
和 “过 术 素 硒 数 
多 过 叉 饭 数 各、 


馈 三 
游 ， 注 儿 、 


所 多 


函数 


明 数 是 一 个 独立 的 计算 过 程 ， 它 接受 - 些 参 数 作 为 输入 并 返回 .- 些 值 。awk 有 许多 
内 置 国 数 ， 可 分 为 旺 组 : 算术 国 数 和 字符 串 图 数 。awk 也 支持 用 户 自 定 多 图 数 ,多 
许 你 编写 自己 的 冰 数 来 扩展 内 团 函 数 。 


算术 函数 


有 9 个 内 噬 困 数 可 以 被 归 类 为 算术 函数 。 它 们 大 多 数 接受 数值 型 参数 并 返回 数值 型 
值 。 表 9-1 峰 括 了 这 些 算 术 琢 数 。 


表 9 1; awk 的 内 壹 算 木 函 数 








awk 函数 ”描述 : 
e0stx] 返回 x 的 余 半 〈x 为 红 订 ) 

如 瑟 了 (2 返回 e 的 < 次 罪 

intrx) 返回 x 的 整数 部 分 的 值 

logo | 返回 x 的 自然 对 数 【以 e 为 底 ) 

sinfzy 返回 zx 的 正 若 (为 引 度 ) 

sqrttn 返 x 的 平方 根 

atan2ty 习 | 返 辐 y 话 的 反正 切 ， 其 值 在 -到 严 之 间 
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表 9-1; ayw 上 的 内 置 算术 图 数 【 续 1 








awk 函数 | 描述 

ramn 本 人 返 阿 伪 随 机 数 ", 其 中 0<=r<1 

STanmdC] 建立 randf) 的 新 的 种 子 数 。 如 此 贱 有 指定 种 了 数 ， 就 用 当天 的 有 时间。 返回 
旦 的 种 子 值 

三 角 函 数 


三 角 困 数 sin 和 cos(0) 的 运行 方式 相同 ， 将 用 亚 度 袁 示 的 角度 作为 参数 并 计算 这 个 
角 放 的 正弦 或 余弦 〈 将 度 转 换 为 弧度 ， 用 这 个 数 乘 以 浆 180)。 三 角力 数 atan20 有 
两 个 参数 并 返回 这 两 个 参数 商 的 反正 切 . 表达 式 : 


asan2 [0。，-1) 


抽 数 ezpO 是 自然 指数 ， 它 是 以 = 为 底 的 指数 。 表 达 式 : 
妈 基 局) 
返 同 数 据 2.71828， 即 自然 对 数 的 底 e。 因 此 exp( 是 e 的 x 次 宣 。 


国 数 log(O) 是 国 数 exp0O 的 反 国 数 ， 即 x 的 自然 对 数 ， 冰 数 sqrtO 的 参数 只 有 一 个 并 
返 阿 这 个 数 (【 正 数 ) 的 平 广 根 。 


整数 函数 


函数 intO 将 数值 型 数据 小 数 点 右边 的 数字 移 去 得 到 它 的 舍 位 ， 参 见 下 面 的 两 个 语 
避 : 


EE]IRL 10573 
Print imrtft130737 


这 两 个 语句 的 输出 结果 显示 在 下面: 


了 3 3 
33 


rr 一 一 一 一 一 -一 - 
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inatO 陆 数 是 简单 的 舍 售 ,没有 使 用 四 合 五 人 法 则 【使 用 prin 凶 榈 式 “ 名 .0f ”实现 会 
和 人 1 ( 注 1)。 


随机 数 的 生成 


函数 randO 生 成 一 个 在 0 和 1 之 间 的 浮 点 型 的 伪 随 机 数 。 队 数 srand0) 为 随机 数 发 
生 器 设置 “个 种 子 数 或 起 点 数 。 如 果 调 用 srandO 时 没有 参数 ， 它 将 用 当时 的 时 间 
来 生成 “个 种 子 数 。 和 上 蔚 有 参数 Y，srand0 使 用 z 作 为 种 子 数 。 


如 果 设 有 调用 srandt)，awk 在 开始 执行 程序 二 前 默认 为 以 某 个 常量 为 参数 调用 
srand() ,使 得 你 的 程序 在 每 次 运行 时 都 从 同 . -个 种 子 数 开 始 。 这 可 以 用 二 重复 测试 
相间 的 操作 , 伍 昆 如 果 希 望 程序 在 不 同 的 时 间 和 运行 具有 不 同 的 操作 则 不 合适 。 参 见 
下 面 的 程序 : 


kxand awk -- 测试 贿 机 允 的 生成 
BEGIN 了 

Drirt anq1l) 

PITnz TanadT 

ET 忆 忆 人 人 

PTIPm+ =a 忆 1 

Frainmz PanmcsT 


了 


这 里 首先 打印 了 两 次 rand0O 图 数 的 结果 ， 然 后 调用 srand0 函 数 ， 接 着 再 打印 两 次 
rand0) 疼 数 的 结果 。 我 们 来 看 程序 的 运行 : 


BawK - 王 an 嫩 .awN 
.513 有 7 了 
了 5 3 白 
四 
总 三 


已 己 


产生 子 4 个 随机 烤 。 现 在 我 们 来 看 译 次 运行 程序 将 发 生 什 么 : 


WwWK 一 ramd ,avwc 
-1387 
-1 ?7532 
-7 了 87988 
-43D9D31 


忆 近 号 品 习 








prinf 进 存 舍 入 的 方式 在 附录 二 “awk 的 恢 速 和 泰 者 ”中 讨 褒 。 


广 1 
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前 面 两 个 “随机 ” 数 和 上 “次 送行 程序 产生 的 结果 - 样 ， 而 后 面 两 个 数 是 不 同 的 。 
后 面 两 个 数 不 同 是 因为 我 们 为 randO 提 供 了 新 的 种 地 数 。 


国 数 srand0 的 返回 值 昆 它 所 使 用 的 种 子 数 。 这 可 被 用 来 跟踪 随机 数 的 序列 ， 如 果 
需 昌 可 以 反复 使 用 这 -上 译 列 执行 程序 。 


Pick'em 


为 了 说 明 如 何 使 用 rand0, 我 们 将 参见 -个 脚本 ,该 脚本 用 来 实现 一 个 抽 彩 票 游 戏 
的 “快速 挑选 ”。 这 个 脚本 被 命名 为 lotto， 它 从 1 到 y 之 间 的 .… 系 列 数据 中 挑选 个 
数 。 在 命令 行 需 妆 提供 两 个 参数 : 挑选 多 少 个 数字 【默认 为 6) 和 数据 系列 中 的 最 
太 值 (默认 为 301j。 使 用 * 和 ?的 默认 值 将 产生 位 于 上 到 30 之 间 的 6 个 随机 数 。 这 
些 数据 按 从 小 到 天 排序 并 输出 ， 以 便 阅 读 。 在 阅读 靶 本 之 前 ,我们 先 运行 该 脚本 。 


汪 工 DO 七 D 

BEiCX 捉 吕 30 
91335 38 39 308 
当 1DEtDo 了 35 

PCK 了 of 35 
日 620 2 之 了 


第 一 个 例子 使 用 软 认 值 打印 了 从 1 到 30 之 间 的 6 个 随机 数 ， 第 二 个 例子 从 35 个 数 
据 中 打印 出 了 ?7 个 随机 数 。 


完整 的 lotto 邯 本 是 很 复杂 的 , 因此 在 阅读 整个 脚本 之 前 , 我 们 先 来 看 在 一 系列 数据 
中 生成 一 个 随机 数 的 一 小 部 分 程序 : 


awk -vv TOPNUM=S1 
# Pickt - 从 Y 个 数据 由 挑选 -个 随机 数 
# 主 例 程 
BESGIMN 1{ 
# 用 当 明 的 时 间作 种 子 数 生成 随机 数 
Sanadiy》 
# 取得 一 个 随机 数 
select = 1 + inrtranal) * TOPNUMI) 
# 打印 挑 玩 的 结果 
BTint S 刀 1ect 


1 


shell 脚本 需要 从 命令 行 由 得 到 一 个 参数 ， 并 且 这 个 参数 通过 使 用 -* 选项 按 
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“TOPNUMz=$1” 的 形式 传 着 给 程序 . 所 有 的 操作 都 在 BEGIN 过 程 中 完成 。 因 为 程 
序 中 糙 有 共 他 的 语 向 ， 国 此 在 完成 BRGIN 过 程 后 退出 awk， 


主 例 种 首先 凋 用 srand0 国 数 产生 随机 数 发 生 器 的 种 子 数 ， 然 后 调用 rand0 国 数 生 
成 一 个 随机 数 。 


Se]ect= | -~- 1PLrardi < TOPNUNI 


将 这 个 才 达 式 分 成 几 部 分 来 看 有 有 勘 于 了 解 该 表达 式 。 





语句 | 结果 
PDFirE 工 = Ta 息 .467315 
Pint 工 二 TOPNUM ,14.0195 
Dr-nt IntLtfr * TOPNUM》 13 

DFInL 1+ ntLTIE 光 TORPNUM) 15 








因为 anda0 明 数 返 回 的 值 在 0 和 1 之 间 , 用 TOPNUM 来 乘 以 它 得 到 0 到 TOPNUM 
之 冯 的 一 个 数 ， 然 后 将 这 个 数 的 小 数 部 分 去 掉 并 加 11， 最后: - 步 操作 是 必要 的 ， 因 
为 randO 畏 数 可 能 返回 0。 在 这 个 例子 中 , 生成 的 随机 数 是 15。 你 可 以 用 这 个 程序 
打印 任何 一 个 数 ， 例 如 在 1 到 100 之 间 的 一 个 数 。 


写 DicklL 100 
83 


使 用 lette 著 林 必须 执行 多 次 “挑选 一 个 ”才能 选 出 多 个 数 。 实 际 上 , 我 们 可 以 设计 
一 个 循环 按 需 要 的 次 数 来 执行 rand0 国 数 , 其 中 困难 的 一 个 原因 是 我 们 必须 考虑 重 
复 性 。 换 句 话说 ， 有 可 能 重复 拢 选 一 个 数 ， 因 此 我 们 必须 跟踪 已 经 被 挑选 的 数 。 


下 面 是 鞋 本 totto 的 代码 : 


awk -vV MUMN-S1L -V TOPNUM=33， 
# lotto - 从 > 个 数 中 椒 选 x 信 随机 数 
# 主语 程 
BESG2-N 二 
# 副 读 命令 行 参 数 ，NUM - 5S1L, 挑选 多 少 个 数 
# TOENUM = 3S2， -系列 数 中 的 最 后 - 企 
it INUM <= 0) 
NUM =- 6 
了 E (TOPNUM <=- 0) 
TOPNUM - 30 
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二 才 乓 “FeK OF 
BRTrImrfi"bIck 名 Do 和 mn， NUM，1OPNDMI 
才 利 几 时 癌 和 有 1 期 作为 种 子 数 . 失 执 行 :次 
品 上 上 总 o 丰 上 
循 蒜 到 有 MLH 个 选 拉 时 
for (= 1: <- RUM +1) 
+ 由 短 环卫 找 -个 渤 没 有 被 发 现 的 多 
am 【1 


二 


2ePest -3 inttiranalrsToPNUM: 
7 whila fseleckr 1n Pirxl 
PCexTsalectLl -- Seldceer 


了 循环 访问 数组 并 打 [ 印 批 选 的 结果 
tcor lim Ricey 
BEI act " 鲁 S Pick 1 林 ]) 
PTyrIntEI mn 1) 


和 前 面 的 侦 子 不 同 , 这 个 程序 需要 两 个 命令 行 参数 ,， 表 下 从 ?个 数据 中 选择 x 个 数 。 
主 例 程 首 先 恰 查 是 否 提供 了 这 些 数据 ， 如 果 没 有 旭 供 则 虐 歌 认 值 。 


这 里 只 有 一 个 数组 ick ， 用 于 保存 已 选择 的 随机 数 。 每 个 数 确 保 在 希望 的 范围 内 ， 
这 是 因为 用 国 数 rand0 的 值 (一 个 0 到 1 之 癌 的 值 )， 乘 以 TOPNUMI 然后 进行 取 
整 . 这 个 脚本 的 核心 部 分 是 “个 循环 运行 NUM 次 , 并 将 NUM 个 元 素 插 人 数组 Pick 


中 


蜀 了 得 到 一 个 不 重复 的 随机 数 ， 我 们 使 用 了 一 个 肉 循 牙 案 生成 选择 , 并 测试 它们 是 
否 在 数组 pick 内 【使 用 in 操作 符 比 用 循环 在 数组 中 比较 下 标 要 快 )， 当 (select in 
piecek ) 条 件 成 立时 ， 说 明 已 经 找到 相应 的 元 素 ， 所 以 当前 的 选择 是 重复 的 ， 于 是 于 
弃 这 个 选择 。 如 果 select in pick 为 假 ， 那 么 我 们 特 把 seleet 赋 给 数组 piek 中 的 一 
个 元 素 。 这 将 使 将 来 的 器 测试 为 真 ， 使 do 循环 继续 。 


基 后 , 程序 循环 访问 数组 pick 并 打印 它 的 元 素 。 这 个 版 本 的 lotto 程序 有 一 个 问题 。 
你 是 否 能 看 出 重新 适 行 它 将 得 到 什么 结果 : 
$ letteo 7 35 


PieX 7 DT 35 
521930 29 20 3 


对 了 , 数据 没有 排序 , 在 我 们 讨论 完 用 户 定 六 国 数 时 将 显示 排序 例 程 的 代码 。 尽 管 
没 必 要 把 排序 代码 编写 成 “个 国 数 ,， 但 这 样 做 有 许多 意 浆 。 一 个 原因 是 你 能 处 理 更 
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普遍 的 问题 六 将 这 种 解决 方案 用 于 其 他 的 程序 .在 后 面 , 我们 将 编写 个 国 数 来 
排序 数组 中 的 元 素 。 


广 意 ，piek 数组 役 有 为 排序 做 好 准备 ,因为 它 的 索引 | 和 息 的 值 尾 相同 的 ,而 不 是 有 
序 的 数据 ， 我 们 将 不 得 不 建立 “个 单独 指数 组 以 便 用 排序 阔 数 来 排序 : 


# 章 灵 用 上 了 排放 的 下 标 为 数 仁 的 数组 
for _n Pick) 
SOrteabpic<x [i++l = Pick:-] 





lotto 程序 在 BEGIN 块 中 处 理 每 件 事 。 没 有 输入 被 处 理 。 然而， 你 可 以 修订 这 个 脚 
本 使 其 能 从 文件 中 读 入 姓名 列表 ， 并 为 每 个 名 字 生 成 一 个 “快速 挑选 "， 


[一 | 0 

字符 串 函 数 

内 时 字符 串 函 数 比 算术 用 数 更 重要 旦 更 有 趣 . 内 为 awk 实质 上 是 被 设计 成 字符 串 处 
理 语 雪 . 它 的 很 多 功能 都 起 源 二 这些 国 数 。 表 9-2 列 出 了 awk 中 的 字符 串 国 数 ， 


表 9-2: awk 的 内 置 字符 审 函 数 





awk 备 数 | 描述 

gsSubfr.9, 门 在 宇 符 串 5 中 用 字符 串 替换 和 止 则 表达 式 > 匹 配 的 所 有 字符 出 。 返 
问 赫 换 的 个 数 ， 如 果 没 有 给 出 上 ， 默 认为 全 

indexrzr,D 有 返回 子 趾 :在 字符 种 * 中 的 位 置 ， 如 果 设 有 指定 *， 则 返回 0 

iengthts) | 返回 字符 帅 * 的 长 度 ， 当 没有 给 出 时 ， 返回 $0 的 长 度 

matehhfsz) 如 果 正 则 表达 式 7 在 * 中 出 现 ， 则 返回 出 现 的 起 始 位 置 ; 如 果 在 * 中 
役 有 发 现 r， 则 返回 0。 设置 RSTART 和 RELENGTH 的 值 





SPlitts,a,sep) ' 使 用 宁 民 分隔 符 sep 将 字符 串 * 分 解 到 数组 < 的 元 素 中 ， 返 回 元 素 的 
个 数 。 如 果 没 有 给 出 sep， 则 使 用 FS。 数 组 分 禹 和 宇 段 分 隔 条 用 同样 


的 方式 
sprinttf Fo” ,espm FexBr 使 用 Prin 民 烙 式 说 明 
Smb(r,s, 他 在 字符 串 中 用 ?替换 正则 表 夺 式 上 的 首次 匹配 。 如 果 成 功 则 返回 1， 


| 否则 返回 0， 如 果 没 有 给 出 上 默认 为 8 
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表 9-2: awk 的 内 屠 字 符 串 函数 ( 续 》 





awk 函数 | 描述 四 本 

SUhbStrfs, 记 :7 返 加 字符 串 * 中 从 位 置 P 开 始 最 大 长 度 为 的 子 训 。 如 果 设 有 给 出 ”， 
返回 从 严 开 姑 剩 余 的 宁 符 串 ， 

tolewer(2) 将 字符 趾 : 中 的 所 有 大 气 字 符 转 换 为 小 写 ， 并 返回 新 串 。 

touwpper(3) 将 字符 串 ? 中 的 小 写 享 符 转换 为 大 写 ， 并 返回 新 中 。 








冰 数 splitO 夺 前 面 的 章节 中 讨论 数组 时 已 经 介绍 过 。 


SPT 训 性 人 国 数 使 用 和 printftO 相 同 的 格式 说 明 ， 在 第 七 章 “ 编 号 awk 脚本 ”中 讨论 
过 。 它 允许 你 对 字符 串 应 用 格式 说 明 。sprintgO 不 是 将 结果 打印 出 来 ， 而 是 返回 - 
个 字符 串 并 可 以 赋 给 -个 变量 。 它 可 以 对 和 输 人 记录 或 字段 进行 特殊 处 理 , 例如 孔 行 
字符 转换 。 例如 , 下 面 的 例子 使 用 sprinttO 丽 数 将 -个 数字 转换 为 一 个 ASCII 字 符 。 


for fl- 37 1 “<- 1227 + 人 
科 全 次 二 亿 七 七 er = SrziIntE 1 是 DC ， 1 工 )} 


) 
以 上 循环 给 出 的 数 从 97 到 122， 这 些 数 产生 从 a 到 z 的 ASCII 字 符 。 


下 面 将 讨论 3 个 基本 的 内 唤 字 符 串 国 数 : index(0 、sabstr0 和 leagth0) 。 


子 串 


inmdex0 和 substr 妇 因数 都 用 于 处 理子 串 .， 给 定 字符 串 >， 贸 数 indexfs, 信 返回 f 在 s 
中 出 现 的 最 左边 的 位 置 。 池 ' 符 串 的 开始 位 置 是 1《{ 这 是 和 C 语 言 丰 同 的 ,在 各 语言 
中 字符 串 的 开始 位 置 是 0)?。 和 参见 下 面 的 例子 : 


再 昌 呈 ”= 也 苛 妇 天 人 二 台 呈 主 宫 急 主 世 从 “ 宇 它 " 


pos 的 值 为 ?。 如 果 没 有 发 现 子 串 ， 国 数 indexO 返 回 0。 


络 定 字符 串 *.substrly,p) 返 回 从 位 置 z 开 始 的 字符 .下面 的 例子 生成 一 个 没有 区 号 
的 电话 号 码 。 


Phenme - SUBSszrt7307 595-11411"， 旺 ) 
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还 可 以 提供 第 一 个 参数 来 袁 示 点 回 字 符 的 个 数 。 下 一 个 例子 只 返回 区 号 
司 了 名 司 CD 人 -DT 5535-1111"， 工 ，31 


这 两 个 败 数 可 以 :起 使 用 调用 经 常 被 一 起 使 用 , 像 下 “个 例子 一 样 ， 这 个 例子 将 每 
个 输入 记 东 的 第 :个 国 的 首 字 苹 改 号 为 大写 。 


awk “#caps- 将 第 “全 音 记 的 首 宇 医改 为 大 针 

# 初始 化 证 符 由 

RCIN 1 UPPCE = “ 训 BCDEFCEHIX] MGOPFRRSTLVWYYTES， 
1OweI - “abcaefghj]jklnrcpdIrstuwwxXYyZ- 

了 


f# 对 于 每 个 斩 人 行 
{ 
ff 乔 到 第 :个 单 癌 的 首 宣 入 
FISSTZCHRAR =- Supscrisl， 1]，1) 
# 著 服 FTRSTCHaK 在 小 写字 考 数 组 半 的 你 四， 如 果 为 0， 起 略 
下 【CHAR = tnaex1acwer,FIRSTCHRRI ) 
+ 改变 $L, 用 位 置 束 检索 
上 大 全 字母 
呈 ] = SUBStLTTDPEPeT，TTaR，2 oubstrtSt，21) 
# 丰 印 记 站 
PrinE SD 
和 和 


这 段 程序 创建 了 两 个 变量 : Upper 和 1lower, 分 别 包 含 天 写字 母 和 小 号 字母 。 我 们 在 
lower 中 找到 的 每 个 字母 都 可 以 在 upper 中 相 回 的 位 置 找到 。 主 过 程 的 第 一 个 语句 
提取 了 第 一 个 字段 的 第 一 个 字母 条 件 语 句 使 用 mdex0 函 数 测试 以 确定 那个 字母 是 
否 能 在 lower 中 找到 。 如 果 CHAR 不 是 0， 那 么 可 以 用 CHAR 从 upper 中 提取 大 号 
字母 这 里 调 册 了 两 个 substr0 数 : 第 一 个 检索 第 个 字段 的 大 写字 母 而 第 一 个 
得 到 第 个 字段 的 剩余 部 分 ， 既 提取 从 第 二 个 字母 开始 剩余 的 所 有 字母 。 两 个 
substr 国 数 的 返回 值 被 连接 在 …- 起 并 赋 给 $1。 像 这 时 这样， 为 一 个 字段 赋值 是 一 
种 新 的 手法 , 但 是 这 有 额 钙 的 好 处 , 即 记录 可 以 被 正常 输出 ! 如果 对 一 个 变量 赋值 ， 
则 必须 输出 这 个 变量 并 输出 这 个 记录 的 其 他 字段 )。print 语 句 打印 出 了 变化 了 的 记 
了 录 。 我 们 来 看 执行 情况 : 


马 CaBPpB 

下 后 所 士 “ 岂 时 尼 工 
ROSE SSGT 
品 & 1 

三 1 已 

Teom 

Tem 
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和 后 ,我 们 贬 看 到 如 何 修改 这 个 程序 来 将 一 个 字符 吊 中 的 所 有 小 写字 母 转换 为 大 写 
字 骨 ， 战 者 反 过 米 转 换 ， 


S 


字符 串 长 度 


观 侣 在 前 面 章节 中 出 有 由 的 awkro 程序 ， 我 们 会 注意 到 程序 有 可 能 产生 超过 80 个 字 
符 的 行 。 毕 竟 撒 述 部 非常 长 。 使 用 内 置 孜 数 leng 级 0) 就 可 以 知道 一 个 字符 串 中 有 多 
少 个 字符 。 倒 如, 要 计算 当前 输 和 人 记录 的 长度 , 我 们 可 以 使 用 length($0)( 下 与 .如 
果 玖 数 lengthO 被 油 用 时 没有 给 出 参数 ， 它 将 返 加 8$0 的 长 度 )。 


月 数 engthO 经 常用 于 计算 当前 输入 记录 的 长 度 ， 以 决定 是 否 需 要 断 行 。 


一 种 处 理 断 行 的 方法 就 是 使 用 length0O 函 数 得 到 每 个 字段 的 长 度 ， 这样 可 能 效率 更 
高 。 通 过 累计 这 些 长 度 ， 当 :个 新 的 字段 使 得 行 的 总 长 座 超 过 某 个 特定 的 数据 时 ， 
我 们 就 可 以 指定 “个 搞 行 。 


在 第 十 三 章 “ 狂 本 的 汇总 ”中 包含 - :个 程 译 ， 当 行 的 宽度 超过 80 列 时 使 用 函数 
lengthO 产 生 断 行 


菏 换 函数 


awk 介 供 了 两 个 赫 换 函数 : sub 和 suhb(}。 册 者 之 闻 的 区 别 是 gsub() 可 以 实现 输 
入 字符 串 中 所 有 位 置 的 替换 ， 而 sab0 困 数 只 实现 第 -个 位 置 的 秩 换 。 这 使 gsub0) 
和 sed 中 用 g 《全 局 的 ) 标志 的 替换 命令 相同 。 


这 两 个 函数 都 至 少 需要 两 个 参数 . 第 - “个 参数 是 一 个 正则 表达 式 (用 斜 杠 包围 着 )， 
用 于 和 一 个 模式 匹配 ;而 第 二 个 参数 是 一 个 字符 串 ， 用 来 替换 模式 匹配 的 字符 串 。 
正则 表达 式 可 以 用 一 个 变量 来 给 出 ,在 这 种 情况 下 将 省 晓 妊 杠 。 第 三 个 可 选 的 参数 
指定 的 字符 串 是 将 被 替换 的 日 标 。 如 果 没 有 第 三 个 参数 ,将 当前 的 输入 记录 ($0) 作 
为 被 奉 换 的 字符 捉 。 





替换 函 数 直 接 改 变 指 定 的 字符 串 。 假设 匣 数 能 正常 工作 , 你 或 许 希望 当 发 生 替 换 后 
卫 数 返回 秋 换 后 的 新 串 ， 但 替换 国 数 实际 上 返回 替换 的 数量 。 在 subO 运 行 成 功 时 


本 2 


总 是 返 名 1 上, 在 不 成 功 时 两 个 国 数 都 返回 0。 因 此 ,可 以 通过 铀 试 这 个 结果 来 确定 是 
否 执行 了 血 换 操作 。 


例如 ， 下 面 的 俩 了 使 用 gsab 必 将 所 有 出 现 的 “UNIX” 用 “POSIX” 和 替代 。 





1 SUL DAI POSTX "1 
Prant 


条 件 诸 铝 狠 试 gsupO 返 回 的 值 ， 只 有 发 生变 化 时 当前 输入 行 才 被 打印 。 


和 sed 一 样 , 如 果 在 替换 字符 串 中 出 现 了 -个 “及 ”字符 , 它 将 被 与 正则 表达 式 匹配 
的 字符 串 代 在 。 用 “\ 秋 ”将 输出 一 个 字符 “多 ”( 记 件 ,， 此 在 字符 串 中 如 入 一 个 反 壬 
杠 “\， 则 必须 输入 两 个 反 斜 本 }。 注意 ,awk 和 sed 不 一 样 ， 不 能 “ 记 件 ”前 面 的 
止 则 表达 式 ， 因 此 我 们 不 能 用 语法 “7A” 来 引用 最 后 的 正则 表达 式 。 





下 面 的 例子 用 于 将 “UNIX” 的 任意 出 现 用 troff 字体 更 改 转 广 序列 来 代替 。 
号 有 JUIX，， ”wsEB&Y ATR' 1 


如 朱 输 和 人 是 “the UNIX operating system”， 输 出 将 是 “the ATBUNIXAfR operating 


SyStetm” 。 


在 第 四 章 “ 编 写 sed 脚本 ”中 ， 我 们 给 出 了 下 面 的 sed 脚本 ， 命 名 为 do.outline， 


Se - 电 “ 

77 全 

SSe rrChapLer 7 
了 
SB Ye 7 有 三 


现在 用 等 换 函数 重 写 上 面 的 稳 序 ; 


WwWK 

{ 

匡 SUPTA 7 ) 

了 E 1SDbiAnw Se 7， "CaREET "1 PFAnL 
if (IsuDpirny ah 7， "ca "1 PEID 七 

这 1subt wy -BEh "At AtB "1 所 rint 
了 


这 两 个 脚本 是 完全 等 价 的 ,部 促 打印 出 那些 变化 了 的 行 。 在 这 本 书 的 第 一 版 中 ,Dale 
比较 了 这 两 个 脚本 的 运行 时 间 , 和 他 预期 的 相同 , awk 脚本 慢 -- 些 .。 在 第 二 版 中 , 青 
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次 确定 运行 时 浊 表 明 使 用 不 记 的 实现 工具 其 性 能 不 同 ， 实际 上 , 所 有 用 新 的 aw 版 
本 的 测试 都 比 sed 快 ! 这 古 好 现象 ， 因 为 在 awk 中 可 以 使 脚本 做 更 多 的 事 。 例 如 ， 
我 们 可 以 给 标题 编号 来 代替 使 用 字母 形 中 的 字母 。 下 面 是 经 过 修订 的 awk 脚本 : 


awk "# QQo.ouLline -- 基文 草 的 标题 网 所 
3Eubi' rr，”) 
上 
0 
SUBTAA SC “Chapher ") 
Cn -32 
Bcl = 昌 
br = 自 
PRTriT 
了 EX 
】} 
7 
SEE 
ph -日 
ENE 
忆 其 
了 
2 EBD 1 
SUDiveBh LSL ”ch ”ah " -++rph "") 
也 FID 
人 





在 这 个 版 本 中 , 我 们 为 每 个 标题 编写 了 它们 自己 的 模式 匹配 规则 。 这 虽然 不 是 必要 


的 , 但 好 像 更 高 黎 , 因为 


- 昌 应 用 了 一 个 规则 , 就 不 需要 下 考 江 其 他 规则 .。 注意 next 


语句 将 此 过 对 已 经 识别 过 的 行 散 进步 的 检测 ， 


章 编号 作为 “.Se” 宏 的 第 一 个 参数 被 读 取 , 也 就 是 行 的 第 二 个 字段 。 编 号 方案 通过 
在 每 次 做 替换 时 递增 一 个 变量 来 完成 .和 章 - :级 标题 相关 的 操作 将 下 一 级 的 标题 计 
数 器 初始 化 为 零 。 和 项 必 标 题 “.Ah” 相 关 的 操作 将 第 二 层 标 题 的 计数 器 初始 化 为 
0, 显然 , 你 可 以 按 需 要 设立 任意 多 个 层 . 注意 我 们 是 如 何 将 字符 串 和 变量 串 连 接 在 
一 起 作为 函数 subO 的 -个 参数 的 。 


GD-DuUc1L1Lne cztn0 


Chapter 2 Unaerstanainaog Easic Operatioas 
3. PRwrkK，PY 晤 Sn Grep，Dut et Ed 
2.3 Command-1ine SSwTntaXX 


加 
的 | 


宁 
记 。 


2.3 US3nG 


z。 


2 


, 宙 ,] CiPEIDS 


习 . Sample Mailang -is 
Se 
3.1 SPecityimng SNPLIE EDSLTUCLIGOnS 


-3.23 Secripr FIL1LeaSs 


函数 2 和 








之 总 1Dg 时 wk 

-no USine Secl anQ awkK TOCcetneT 
如 采 你 希望 可以 选择 使 用 字 骸 或 数字 作为 标题 编号 , 则 需要 维护 两 个 程序 并 创建 一 
个 shell 实现 ， 使 用 一 些 标志 来 决定 调用 哪个 程序 。 


大 小 写 转 换 


POSIX awk 提供 了 随 个 国 数 ， 用 于 完成 字符 串 中 字符 的 天 小 芭 转 换 。 数 为 
tolower0 和 toupper0O。 人 等 个 鹃 数 需要 -个 字符 串 参 数 ， 并 返回 该 字符 串 的 一 个 备 
份 , 其 中 所 有 的 字符 串 都 发 息 了 转换 { 分 别 为 大 写 变 小 吨 和 小 写 变 大 号 )。 它们 的 使 
用 是 简单 明了 的 : 

急 怠 昌 七 二 后 鼎 上 

HE]1lc，WwWer]al 

Dod-Pye CRUTL worlal 

了 3，nad awayr we Do 

SRWK “{ 站 EnE 荆 [< 各 日 > ，“% 昌 >" 七 OLOwer( 训 0 ， 七 OUPRaY ( 妾 0 ) 七 和 8 

me]，WOFTES1>， <HELILC，WORIDI > 


< 人 CC-DYye Cruel moral>，<GoO0D-BYE CRUEL WORLDI > 
< ,3aTId away we gly>，，<1 2，3，aND aaY WE CGOI> 


注意 ， 非 字母 袁 中 的 字符 兴 有 发 生 转 换 。 


matchf) 函数 


matehO 葡 数 用 于 确定 一 个 正则 表达 式 是 机 和 指定 的 牢 符 串 匹 配 . 它 需 要 商 个 参数 ， 
字符 串 和 正则 表达 式 (这 个 函数 容易 产生 奶 请 ,因为 这 个 国 数 中 正则 表达 式 在 第 二 
个 位 置 ， 而 在 替换 函数 中 正则 表达 式 在 第 -个 位 置 )。 


mateh() 国 数 返回 与 正则 表达 式 匹配 的 子 串 的 开始 位 置 。 你 可 能 会 认为 它 和 国 数 
indexO 有 紧密 的 联系 。 在 下 面 的 例子 中 , 正则 袁 达 式 和 字符 襄 "the UNIX operating 
system.” 中 的 所 有 大 写字 母 序列 匹配 。 


TELCh TI Zhe UNIX OPeTrazinDbo System /[ 王 -二 + 
函数 的 返回 值 为 5， 即 字符 时 中 第 一 个 大 写字 母 “U” 的 位 置 。 


matehO 国 数 岂 设置 了 两 个 系统 变量 : RSTART 和 RLENGTH。 了 到 START 中 包含 
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这 个 里 多 的 返回 值 , 副 中 配子 串 的 开始 位 置 。RLENGTH 中 包含 匹配 的 字符 串 的 字 
符 数 { 而 不是 子 串 的 结束 位 置 }. 当 模 式 不 匹配 时 ,RSTART 设 置 为 0 ,而 有 LENGTH 
设置 为 -1. 在 前 面 的 例 了 中， 疏 START 的 值 二 5， 而 区 LENGT 引 的 值 是 4 将 它们 
相 如 后 可 以 得 到 匹配 之 后 的 第 一 个 字符 的 位 置 )。 


让 我 们 来 参见 一 个 简单 的 例子 , 打印 出 与 指定 的 正则 表 近 式 丐 配 的 字符 串 , 用 于 说 
二 在 第 二 章 “ 了 解 正 则 表 运 起 语法 ”中 讨论 的 “匹配 的 范围 *>。 下 面 的 shell 脚本 包 
含 上 个 命令 行 参数 : 正则 表达 式 【 这 个 正则 表达 式 必 须 用 引导 揪 起 来 ) 以 及 要 查找 
的 文件 名 。 
awkK “# Was=eh -- 打 儿 配 责 ! 行 的 六 符 册 
# 对 二 匹 本 模式 的 行 
有 二 它 甩 站， 瑟 Er) 1 
# 提取 上 配 中 的 模式 的 字符 串 
h 用 字符 串 在 3 中 的 于 始 阅 帝 和 和 长度 
# 打 名 证 管 出 
Print SUDstri5SD，R3START，RLENGCTH) 
Battrern- sl” ea 


第 一 个 命令 行 参 数 被 作为 patterm 的 值 传递 。 注意,，$1 是 用 引号 播 起 来 的 这 用 于 
保护 出 现在 正则 表达 式 中 的 任何 空格 。matchO 男 数 出 现在 条 件 表 达 式 中 ， 用 于 控 
制 awk 脚本 中 惟 : 的 一 个 过 程 的 执行 。 如 果 匹 配 的 模式 不 存在 ， 那 么 mateht) 困 数 
返回 4， 如 果 存 在 . 则 返 辐 非 零 值 (RSTART)， 可 以 将 这 个 返回 值 作 为 一 个 条 件 来 
使 用 。 如 果 当 前 记录 与 模式 匹配 ,那么 字符 串 将 从 和 中 提取 , 在 substr0 函 数 中 使 
用 RSTART 和 RLRNGTH 的 值 来 指定 被 提 脾 的 子 串 的 开始 位 置 和 长 度 。 同 时 打印 
该 子囊 ， 这 全 过 程 只 和 $0 中 第 一 次 出 现 的 子 串 匹配 。 


下 面 悬 -个 验证 运行 ， 给 出 -个 正则 表达 式 来 匹配 “emp” 和 一 个 空格 之 前 的 所 有 
字符 。 


SS meh “emp 【[* ]*” 下 GreDmDE1 .七 区 上 
马 TIE 了 巴 玫 矶 所 吕 

全 扣 户 】 妇 Ye 刀 

EImP1LDYee 

TDPTDYmGDL， 

BimE] 忆 YeTI 

eYiDLCYTmeEPE 

全 有 有 忆 Ye 台电 

所 几 中 了 刀 了 已 己 


mafch 肚 本 对 于 我 们 进一步 理解 正则 表达 式 是 一 个 很 有 用 的 上 具 。 
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一 个 胸 本 使 用 matchO 困 数 来 定位 任意 的 大 写字 母 序列 并 和 将 它 转换 为 小 写 ， 将 这 
个 程序 与 本 章 中 前 面 的 程序 caps 进行 比较 ; 


awk 于 1ower - 将 友 呈 于 凡 转 搞 戌 小 王 字 二 

# 初始 化 字符 出 

BEGIN {f PPer - “aaECDEFGHIUKLYHJIOEPCRSTUWRXY 己 ， 
DCwer - "aphcaetghi]jklLmnopedrscuwwxy2 

了 


# 对 上 每 个 输入 行 
f 
# 租 在 是 否 市 所 右 大 沁 字 由 的 瑟 配 
While lmatchTsD。 [三 -Z]+r7) 
# 得 到 每 个 大 写字 中 
ECIT 1X 一 RSTRRT; X < RSTART+RLENGTH: ++X] 了 
站 玫 = SUJBStT TS 其， 二) 
CHaRR = ndexlaPpeI， CRY 
# 将 小 全 下 雪夫 换 大 全 宇 志 
号 BUDDICRE， SBSzrILCOmwELT，CHER，111) 


# 打印 记录 
EEint S0 
了 
在 这 个 脚本 中 ，matchO 国 数 出 现在 条 件 表达 式 中 ， 用 来 确定 while 循环 是 否 执行 。 
通过 在 循环 中 使 用 这 个 国 数 , 可 以 合 循 环 体 的 执行 次 数 和 当前 输入 记录 中 模式 出 现 
的 次 数 -- 样 多 。 





记 里 的 止 则 表达 式 用 于 匹配 $0 中 任意 的 大 写字 母 序 列 。 如 果 得 到 一 个 旦 配 ,那么 for 
循环 将 对 被 匹配 的 子 串 中 的 每 一 个 字符 进行 搜索 , 和 我 们 在 本 章 中 前 面 的 caps 程 序 
中 所 伍 的 处 理 类 似 , 共 中 的 区 别 是 我 们 如 何 使 用 系统 变量 RSTART 和 RLENGTH. 
RSTART 初始 化 计数 器 变量 x， 它 用 于 困 数 suhbstrfi 中 ， 一 次 从 $0 中 提取 一 个 字 
符 ， 提 取 位 置 从 与 模式 匹配 的 第 一 个 字符 处 开始 。 通 过 和 将 RSTART 和 RIENGTH 
机 加 ,我 们 可 以 得 到 与 模式 匹配 之 后 的 第 “个 字符 的 位 置 。 这 就 是 为 什么 循环 用 
“<” 而 不 用 “<="。 在 最 后 .我 们 使 用 gsub0 和 将 大 写字 母 用 相应 的 小 写字 母 来 赵 换 
( 注 2)。 注 意 ,， 我们 用 gsub0O 人 代替 subh(),， 这 是 因为 如 果 在 一 行 中 出 现 多 次 相同 的 字 
母 ，gsubt0) 能 够 进行 多 个 机 换 ， 








注 2: 你 或 许 会 问 :“ 为 什么 不 用 tnlowerc0? ” 问 排 好 。 一 些 早期 的 mawk 乒 本 ， 包 括 用 在 
SunOS 4.1.x 系统 上 上 的， 都 没有 包含 tolower0 和 toupper0， 周 此 ， 了 解 如 何 自己 完 
成 转 摘 姑 很 有 用 的 . 
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号 Ce 引 上 七 各 总 七 

EveITY MOW ar aen， 昌 WORP IT LYBe naDPeaTS 1 CaFS . 

号】 工 DW7 忆 工区 所 号 七 

EYEeTY DCw and -mnRPnA， WOITG tyYPE apPDearc 153 Capas . 
注意 , 可 以 使 用 “![A-Z][A-Z]+f” 来 修改 正则 表达 式 ， 通 过 瑟 配 两 个 或 多 个 大 写字 
符 米 避免 匹配 单个 大 气 字 母 。 这 还 需要 改变 使 用 gsabO 进 行 小 汪 转 换 揭 方式 , 因为 
疙 与 一 行 中 的 单个 字符 匹配 。 





在 我 们 讨论 sed 中 的 替换 命令 时 ， 介 绍 了 如 何 存储 和 调用 与 模式 匹配 的 字符 串 的 一 
部 分 ,使 用 \( 和 \) 将 要 存储 的 模式 包围 起 来 ， 并 在 替换 模式 中 使 用 如来 调用 存储 
的 字符 审 。 不 幸 的 是 ， 夺 awk 的 标准 替换 函 数 中 没有 等 价 的 语法 。 但 可 用 matehO) 
函数 来 解决 许多 这 样 的 问题 。 





例如 ， 如 果 用 match0 国 数 来 匹配 个 字符 品 ， 你 可 以 确定 出 个 字符 或 子 训 ,在 
另 “个 字符 串 中 的 起 始 成 结束 位 置 。 给 出 时 START 和 RELENGTS 的 值 ， 你 就 可 以 
用 suhbstr0 旧 数 来 提取 这 些 字符 。 在 下 面 的 例子 中 ， 我 们 再 分 号 将 两 个 冒号 中 的 第 
一 个 趟 和 殴 掉 . 我 们 不 能 用 gsubO 来 做 这 个 殖 换 ， 因 为 “AP” 匹配 第 一 个 冒号 ， 而 “/ 
iT*:J*:1 ”匹配 整个 字符 串 ， 我 们 可 以 用 matchO 匹 配 字符 串 ， 并 提 归 这 个 捉 的 最 后 
一 个 字符 。 

上 征用 match 的 数 和 sabsts 必 数 用 分 号 取代 第 .个 纯 导 

1E mehisl 7 Te]rAH 

beiore = SuUbatritSs1l，1， (1RSEaRT +RURMNGTH - 2)1) 


已 ELeT = SUBSTLITISL，TRSTRNP + FENGTH) ) 
训 1 = pefore "总 二 fr 


放置 于 条 件 语句 中 的 mateat) 国 数 用 于 检测 是 否 有 一 个 匹配 。 如 果 有 ， 则 使 用 
supbstzf) 国 数据 取 第 二 个 时 号 之 前 的 子 串 以 及 它 后 面 的 子 串 。 然 后 我 们 将 before、 
”和 after 连接 起 来 ， 并 赋 给 $1 


我 们 将 在 第 十 二 章 “ 娃 合 应 用 ”中 看 到 函数 matehO 的 应 用 。 


自 定义 函数 


使 肌 用 户 自 定 义 昌 数 ，awk 充 许 程序 郧 新 手 采 用 与 C 编程 语言 { 注 3) 不 同 的 步骤 





注 3: 或 者 用 任何 其 他 传统 高 级 语言 编程 。 
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来 编写 程序 ， 这 战 是 使 用 自 含 式 国 数 。 当 正确 地 编写 上 -个 函数 时 ， 也 就 定义 了 一 
个 国 数 组 件 ,， 这 个 组 件 可 以 被 其 但 的 程序 重复 使 用 . 随 兰 编写 的 程序 的 大 小 显著 增 
长 ， 以 及 编写 的 程序 数目 的 增多 ， 使 用 自 定 浆 国 数 的 优点 会 密 得 更 明显 。 








国 数 定 光 可 以 放 帝 在 脚本 中 寞 式 操作 规则 可 以 出 现 前 任何 地 方 。 通 常情 况 下 ,我们 
将 冰 数 定 又 放 人 在 层 本 顶部 的 模式 操作 规则 过 前 。 轩 数 用 下 商 的 语法 定义 : 
unetion manic fDeazeanerer- iet) 萎 


号 广 民 PIC 


}》 


左 大 括号 后 面 的 换行 和 右 大 括 台 前面 的 稳 行 都 是 可 选 的 。 你 也 可 以 在 包含 参数 列表 
的 右 圈 括 导 后 和 撕 大 括号 前 进行 换行 。 


ParamieterPns! 总 用 逗号 分 阳 的 变 旺 列表 , 当 国 数 被 调用 时 , 它 被 作为 参数 传递 到 于 
数 中 。 的 数 体 由 “个 或 多 个 诸 句 组 成 。 国 数 中 通常 包含 -个 returnm 语 句 ， 用 于 将 控 
制 返回 到 脚本 中 调用 该 角 数 的 位 置 ; 它 通 常 带 有 一 个 表 夺 或 来 返回 “个 值 ， 如 下 所 
未 : 


开间 七 也 芋 科 号 有 D 六 尼 呈 汪 4 吕 甩 


下 面 的 例子 给 出 了 imsert0 国 数 的 定 交 : 


funetloI inserttSRING，POS，1NS) 1 
Peerec_ tmP - SubpgtriSTRING，L+，Pogs) 
中 ECer_ kmp :- 3uUbstriSTRINCG，BOS +1) 
ETUEI betelTre_ tmP INS er _ cr 

】 


这 个 对 数 有 3 个 参数 ,在 :个 字符 串 STRING 的 POS ( 注 4) 位 转 之 后 柑 人 另 一 个 
字符 串 INS。 在 函数 体 中 用 国 数 substr0) 将 STRING 分 为 两 部 分 。retuga 语句 返回 
-个 字符 串 ， 这 个 字符 串 是 将 字符 串 STRING 的 第 -部 分 、1NS 和 STRING 的 最 
下 “部 分 违 接 起 来 而 得 到 的 。 咀 数 调用 可 以 放置 在 表达 式 可 以 出 现 的 地 方 。 因 此 ， 
下 面 的 语句 : 





BEILmnT 之 merE 《本 1 ， 生 ， “其 甘 1 
证 中: 我 们 习 情 用 大 写 表示 参数。 这 主要 是 为 了 使 解释 容易 些 。 在 实际 中 ,这 不 是 一 个 好 主 
意 ， 因 为 这 很 容易 与 系统 变 醒 相 古 突 。 
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如 持 $1 的 值 为 “Hello* ， 这 个 函数 返回 “HelIXXo"。 注 意 当 调用 用 户 自 定 交 国 数 
上 时， 在 国 数 名 和 去 网 括号 之 间 可 以 没有 空格 。 人 也 这 对 内 置 函 数 是 不 适合 的 ， 


理解 局 部 变量 和 全 局 变量 的 概念 是 很 重要 的 .一 个 局 部 变量 是 芋 数 的 内 部 变量 , 不 
能 在 这 个 图 数 外 面 计 问 。 全 局 变 基 和 让 相反， 可 以 在 有 著 本 的 任何 地 方 让 谤 问 和 修改 。 
当 一 个 盟 数 修改 了 全 局 变量 而 这 个 变 大 在 其 他 的 地 方 也 被 使 用 时 ,这 可 能 有 潜在 的 
破坏 性 副作用 。 因此， 在 一 个 男 数 内 夺 免 使 用 全 局 变量 是 一 个 好 主 章 。 


当 我 们 调用 昌 数 isertD0,， 并 将 $1 设置 为 第 一 个 参数 时 ,这 个 变量 的 一 个 副本 就 被 
传递 到 胃 数 中 , 在 那里 被 作为 “个 局 部 变量 STRING 来 处 理 。 在 国 数 定义 的 参数 列 
表 中 的 所 有 变量 都 是 局 部 的 ,而 且 它 们 的 值 在 这 个 国 数 之 外 基 不 能 被 访问 .相间 地 ， 
在 示 数 调用 中 的 参数 不 会 被 函数 本 身 修 改 。 当 国 数 insertO 返 回 时 ，$1 的 值 没有 改 
变 。 


然而 ， 在 胡 数 体 中 定义 的 变量 轰 认 为 全 局 变 其 ， 对 于 前 面 给 出 的 国 数 isertO) 的 定 
兴 ， 了 临时 变量 before_tmp 和 after_tmp 在 国 数 外 是 可 见 的 ，awk 提供 了 它 的 开发 
者 称 为 “ 粗 莉 的 ”方法 来 上 声明 变量 为 函数 的 局 部 变量 ,也 就 是 在 参数 列表 中 定 交 这 
些 变 基 。 


局 部 的 临时 变 基 放 在 参数 列表 的 末尾 。 最 基本 的 是 在 参数 列表 中 的 参数 按 顺序 们 收 
函数 调用 传递 来 的 值 . 任何 补充 的 参数 ， 和 awk 中 的 普通 变量 一 样 , 被 初始 化 为 空 
串 。 习 慌 土 ， 局 部 变量 和 “次 实 的 ”参数 用 下 个 空格 隔 开 。 例 如 ， 下 面 的 例子 显示 
了 如 何 定义 带 有 两 个 局 部 变量 的 insertO 范 数 。 

funcr-on InserriSTRINS，BOS，INS， JPe 丰 Dre_tmp， 忌 上 eaTr_ tmp) 1 


Day 
} 


如 果 这 看 上 去 有 些 混乱 ( 注 35)， 那 么 了 解 下 面 的 程序 是 如 何 工 作 的 可 能 会 有 帮助 ; 


function insertiSTRING，PDOS，INS，Dbefore_tmp)i 
卫 DTe._tm 史 =- SUPSET TSTRING ，1，POS) 
记 上 t+t 辣 _FmP = SuUpstr19TRINCG，POS +1) 
工 tUTrT 全 上 人 六 和 上 IE TNS 号 和 ELmIB 





画 数 四 2 








《 

Brant "FLnCF OF TELUTILS"，TLnSRTtL1S1， 研 ， XE 1 
Prinr "he walue 7 $1 afkrer is:”，S1 

Dripcft "ae valuse DFI STRING 1s: ，STRITNC 
BFP1LHL “Cn wz 本 上 L 全 0 上 OCTere cm 。 也 忆 Te TD 
了 FIEnE "heE Ya2UE 台 [ 主人 六 LE 司 丰 是 上 TD 


注意 ,我 们 在 参数 列表 中 定义 before_tmp。 在 主 例 程 中 ， 我 们 调用 insertO 数 并 
打印 它 的 结果 。 热 后 打印 不 同 的 变 基 来 观察 它们 的 值 { 如 果 有 值 的 话 ) 是 付 么 . 现 
在 我 们 运行 于 面 的 脚本 并 观察 它 的 输出 结果 ; 

Baho "Rello” | awk -E inBgert ,awk - 

FwneEIOD 工 们 LED HE]11LXXCD 

人 De VELUE DT 31L ttt 113s:HC11 

下 he valua cf 3STRINWG S: 


The Value DT befwore_tmin 
TPRE YaluE 马 f 日 fter_ km: 已 


蝴 数 insertDO 返 回 预 期 的 “HetlXXo."。$1 的 值 在 国 数 被 调 四 前 后 是 - 样 的 。 变 量 
STRING 是 鸡 娄 的 局 部 变 层 ， 当 在 主 例 程 中 调用 时 筷 没 有 值 。 对 before_tmp 来 说 
也 是 -一样 ， 困 为 它 的 名 字 玫 在 困 数 定义 的 参数 列表 中 。 变量 after tmp 没有 在 参数 
列表 中 指定 ， 它 有 :个 值 是 字母 “9 





正如 这 个 例子 所 显示 的 ，$1 将 “ 按 值 ”传递 给 用 数 。 这 就 意味 着 ， 当 误 用 图 数 时 产 
生 $1 的 值 的 一 个 洗 份 ， 并 且 国 数 对 这 个 漂 份 扒 行 操作 ， 击 不 是 对 原来 的 $1 执行 操 
作 。 然 而， 数组 是 “ 按 引 用 ”传递 的 ， 也 就 是 函数 操作 的 不 是 数组 的 备份 而 是 数组 
本 身 。 因此 , 国 数 对 数组 的 任何 修 疏 在 国 数 外 部 都 是 可 施 的 (在 C 语 吉 中 国 数 的 “ 标 
基 ” 变量 和 数组 也 是 有 区 日 的 ). 下 - - 节 给 出 了 对 数组 进行 操作 的 一 个 国 数 的 例子 ， 


编号 一 个 排序 函数 


在 本 章 的 前 面部 分 我 们 给 出 了 lotto 程序 , 用 来 从 ?个 数据 中 挑选 z 个 随机 数 ， 这 个 
程序 设 有 对 被 违反 的 数据 排序 .在 本 节 中 , 我 们 将 为 - :个 数组 的 元 素 建 立 排 序 函 数 


SPt。 


我 们 定义 的 晶 数 有 两 个 参数 ,数组 的 名 字 和 数组 中 元 素 的 个 数 。 这 个 阴 数 可 以 用 下 
而 的 方式 调 有 四: 
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SEOLLTSC2 dandzE，，NDMHI 
相 息 的 国 数 定 叉 列 出 了 应 用 在 这 个 项 数 中 的 两 个 参数 和 3 个 局 部 变量 ， 


# 用 升 译 排 池 交 他 
FumCL_ CI 3 TaRSRRT FLZMFNTS，L2TE，1， 
ZOL 1 -2 Te FISKRENWCS: -+4)1 
Jor 人 -1 ARRPY baRRAT -1 ] -Ahkay | 3 
Eee = 只 RRAY131 
aaRRaY [TI - ARRaY[2- ] 
矶 FRRRT[- -二 -tomg 


) 
上 EL JJ 工 记 

消 数 体 实现 了 - -个 插入 排 岸 , 这 个 排序 算法 很 简单 。 即 循环 访问 数组 的 每 个 已 素 六 
与 它 前 面 的 值 相 比较 。 如果 第 一 个 元 素 比 第 一 个 大, 则 将 第 .个 元 素 与 第 二 个 元 者 
交换 (《 注 6)。 为 了 真正 交换 数据 , 我 们 用 -个 临时 变量 来 存储 将 要 被 夏 盖 的 值 的 一 
个 备份 . 循环 将 不 停 地 交换 相 邻 的 数据 直到 所 有 的 数据 都 按 项 序 排列 。 在 函数 的 未 
尾 ， 我 们 用 return 话 名 返回 到 程序 的 调用 点 ( 广 7)。 国 数 不 必 将 数组 返回 给 主 例 
程 ， 因 为 数组 已经 被 修改 ， 它 可 以 直接 被 访问 。 














下 面 是 实际 的 菲 序 结果 : 
3 lotto 了 35 


FEiCK 了 CE 35 
昌 了 14171419 刀 439 349 


实际 上 , 我 们 在 本 章 提供 的 许多 脚本 都 叮 以 改写 为 函数 。 例 如 ,如 果 我 们 只 有 1987 
年 nawk 的 原始 版 本 ， 我 们 或 许 就 需要 护 写 tolower0 和 toupperD 朵 数 。 


以 通用 的 方式 编 扣 sortO 函 数 的 意 交 是 可 以 很 容易 地 重用 它 。 为 了 说 明 这 一 点 ， 我 
们 将 使 用 前 面 气 若 的 排序 函数 ,并 用 它 末 对 学 生 的 成 绩 进行 排序 .在 下 面 的 脚本 中 ， 
我 们 将 学 生 的 成 绩 读 到 一 个 数组 中 ， 并 调用 范 数 sortO 对 学 生 的 成 线 按 升序 剧 列 。 


# graqde.soxt .awk -- 对 学 生成 绩 进 行 排 涯 的 脚本 





注 看 : 载 们 这 天 首 先 测试 打 主 是 否 在 数组 中 ， 确 长 温 有 直 出 数组 边界 。 


省 了 : return 且 可 迁 的 , 这 和 函数 “在 尾部 带 出 " 有 相同 的 效果 。 由 于 函数 可 能 要 返回 一 个 
值 ， 用 Tetura 语 坷 是 一 个 好 的 想法 ， 
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# 输入 : 后 而 嘴 有 -系列 七 绩 的 学 牛 媳 区 
排放 明 数 -- 接 天 让 排放 烙 生 


1 号 OOT [ 空 RRR 辣 号， 荆 DEYWRTTS， 七 汪 rm， 工 ，] 了 上 工 
tcr ii =- 3 1 <= EDEYTEMN1IS +-~1} 
tcL 1j - -ARRaAY [Jj-1L] > akRkaY 了 1: --]) 上 

上 sm = aaRRAY. ] 
KEaA[j” - ARRPY[II-LI| 
ARRav [JJ-1。- 十 eitP 

上 

了 全 TY 


， 
上 


# 十 例 各 

f 

上 通过 循环 特 贡 半 到 第 xF 和 眉 的 值 距 给 

T 前 若 轴 grades 的 数 组 

tcer li = 3 1a2= ET ++I) 
gxzaces[i-11 - Si 


# 调用 排 友 明 归来 排序 元 泰 
号 人 IT 二 日 工 忆 屿 3， 周一 1 


4 打 团 学 于 姓名 
ExaELt1L "号 S 1 


输出 御 征 

co 1 = 1 jj <= XNL- -+ 
BFIntsV Sa Sraqes[1l ]1 

TEA 


注意 ， 这 颗 的 排序 例 程 和 前 面 的 版 本 相同 。 本 例 在 完成 排序 后 简单 地 输出 它 人 |。 


占有 WK -不 本 天 避 可 人 .归口 工 上 , 癌 WK 局 工 闪避 白 己 ,七 导 召 七 
TDna: 7 

Jobhnr: ?78 83 88 9- 92 包 4 

QQmCITeEa: 5 9 30 30 5 95 

Jasper 80 3S2 584 84 88 92 

Quance: 60 6 61 昌 2 和 总 0 

已 L1113S: 89 90 92 96 pb 8 


然而 ， 如果 我 们 希望 在 副 除 节 低 分 数 后 计算 学 生 的 学 均 成 绩 ， 那 么 可 以 通过 删除 排 
序 后 的 数组 中 的 第 个 苑 素来 实现 。 还 可 以 做 男 一 个 练习 , 你 可 以 编写 排序 函数 的 
男 - 版 本 ， 记 包含 第 二 个 参数 用 于 指示 按 升序 或 降序 排序 。 
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维护 函数 库 

你 或 许 希 望 把 一 个 有 用 的 函数 保存 在 -个 文件 中 ， 并 保存 在 :个 重要 的 目 孙 下 。 
awk 公 许 使 用 多 个 :进项 来 指定 多 个 程序 文件 ( 注 8)。 合 如 ， 我 们 可 以 将 前 面 编 气 
的 排序 国 数 放 轩 在 与 主 程序 grade,awk 不 同 的 文件 中 。 下 面 的 命令 指定 了 顺 个 程序 
文件 : 


总 wk -于 本 Fa avwK - 王 /uarrlocalLraBharerawgy gart .awk 可 ade 昌 .七 马 B 七 





这 个 傅 令 假设 sraae.awk 在 当前 下 作 日 水 中 ,并 日 排序 国 数 定 交 在 目录 jasreriocagty 
3PGreay 天 下 的 文件 scrt ,awk 中 。 








注意 : 你 不 能 将 一 段 即 本 二 在 命 信行， 并 使 用 -了 选项 来 为 “个 脚本 指定 一 个 文件 名 。 





注意 ， 保 存 国 数 文 档 的 有 关 信 息 有 助 于 在 重用 它们 时 理解 它们 如 何 工作 。 





另 一 个 排序 的 例子 
我 们 产品 的 编辑 Lenny 加 复 了 另外 一 个 需求 。 
?LE: 


The ast SeckLoOh DEF each X1ib manpage is CalLlea "Related Commands， 

人 hat 15 直 he 半 UIment DO aa .3SH)and iE 8B folLowea by 引 isk of eeommanads 
| 攻 全 广 1 问 已 > 0)tDat are row jir -andor Draer，。，It'd be more 

USeftul anG Profegsianal 二 khey Were@ 1IPhabetjized。Current1ly，eommands 
司 六 所 ”号 全 的 且 上 训 让 昌 by 己 已 Ga 居所 六 已 关 CH 站 卫生 让 其 语 后 及 二 the ast，which has 己 
Dazriog . 


ThE QUESLTLOE 15: COU]IO aWwK 二 ] 史 habetrize 七 heESE 工 LSt 斌 2 网 B 二 吕 上 aa K 工 语 
仿 站 让 GE 上 届 丰 司 1 呈 DEFE hanmearea mant 忆 村 ee 。 名 站 1 ， 避 om Dorher Ethis 18 避 
DiggeTr Jocoap tnhari SRems 七 D ESDimeaone TDHD egn TtL Know whatr's imnveLwead， 


Besc Lo Yu an YourE， 


LenDY 


广 8: 在 SunDS 4.1.x 的 nawk 中 不 支持 多 个 脚本 文件 的 并 用 ， 在 1987 年 nawk 的 原始 版 本 
中 也 肖 有 这 个 功能 。 它 是 1989 年 增加 的 ， 现 在 是 POSIX awk 的 一部分。 
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为 了 明白 他 的 意思 ， 下 面 给 出 了 XXlib 帮助 页 的 -个 简单 的 版 本 : 


“SSH “Ianme 
XS3UDPImaGR -creale 己 SuUblimagqe Ercom Part of an imag 吕 ， 


.SBH "有 全 1atea CDrmmanads 

下 站 大 有 上 工 间 站 工 站 所 和 其 FU 上 工 Tag 可 XXGSGetLIIuaeGe 

其 CTEBL 它 IIagB，XGet3uDIImaGe，Xaadasixel ， 
其 PUTLEI EL ， XGETRTX= 1 ，Tm 启 可 所 BYEECECGeT - 


可 以 看 出 , 与 命令 相关 的 名 字 在 标题 行 后 辕 凡 现在 许多 行 中 。 而 且 它们 没有 特定 
的 顺序 。 


对 与 命令 相关 的 列表 排序 是 相当 简 音 的, 因为 我 们 已 经 学 会 了 排序 。 这 个 程序 的 结 
构 很 有 趣 ， 因 为 我 们 必须 在 匹配 “Related Commands” 标 题 之 后 读 取 儿 行 。 


通过 观察 给 人 ,显然 相关 命令 的 列表 位 于 文件 的 最 后 部 分 . 除了 这 些 行 之 外 ， 其 余 
的 行 都 要 按 原样 打印 。 关键 是 要 匹配 从 “Related Commands” 标 题 到 文件 的 末尾 的 
所 有 的 行 。 我 们 的 脚本 包含 四 个 规则 ， 它 们 匹配 的 是 : 

1 “Related Commands” 标 是 

2 读 标 题 后 面 的 行 

3. 所 有 其 他 行 

4. 在 所 有 行 被 读 和 人 后 《END ) 


大 多 数 “ 操 作 ” 在 END 过 程 中 执行 。 这 也 是 排 育 和 输出 命令 列表 的 地 方 。 下 面 是 这 
个 脚本 的 代码 : 





上 Sorter.awk -- 排 交 相关 命令 的 列表 
# 曲 求 在 单独 的 误 件 中 的 sert ,awk 作为 一 个 男 数 


BEGIM 1 relcnmas -0 1) 


#1 也 配 相关 的 命令 ， 将 标点 zelcmas 设 为 1 
ASH “下 各 1 二 二 吕 Cerrmanads' 

PEIIIT 

I 忆 lemas = 二 

TILEXt 
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12 序 用 ] 中 看 “Relsted Cemmands” 用 而 的 行 
IlL2moqs == 1) 1 
PCmmano91st -RomTrarcdL1S- 30 


#3 控 蛛 拌 二 世 折 在 基业 的 行 


zelLrmas -- IOrIrt 上 


# 现在 掉 译 并 输 市 命令 的 列表 


END 、 


# 猎 除 前 导 字 格 和 [ 战 后 的 条 点 
号 BUS ”ecnmmazaList) 
间 GUD1e Yaommaner St 


# 将 各 列 分 解 芭 数 组 中 


号 工 EDmTRTYaw = Sb]1LcCTICorinartclL 澡 L 


井 排序 
号 FE TCDTATTSY， 呈 工 <eDTaTEae) 


# 输出 疱 素 


fer (人 >- 1 工 < 号 全 记 品 下 本 ra i++] 


CD LTD 


呈 三 工 mLEE 人 和 Sm ， 它 GIuazIEYT [| 


Bacsil" sn ycComarravw [11) 


第 九 齐 


一 用 匹配 “Related Commaands” 标 是 , 则 打印 那 - 行 并 设置 -个 标记 变量 relernds， 
该 变量 用 于 指 必 后 续 的 输入 行 是 昌 收 集 的 行 ! 广 9). 第 二 个 过 程 实际 上 将 每 行 播 人 
变量 commandEist 中， 第 二 个 过 得 处 理 所 有 其 他 行 ， 只 是 简单 地 打印 它们 。 


当 读 完 所 有 的 输入 行 之 扩 , 执行 END 过 程 . 这 时 形成 了 完整 的 命令 列表 . 在 将 命令 
分 解 成 不 同 的 字段 之 前 , 应 先 将 逗号 后 面 的 所 有 空 档 去掉。 接着 移 走 最 后 的 句点 及 
结尾 空格 。 最后， 使 用 函数 sPIitO) 创 建 个 数组 eomArray。 我 们 将 这 个 数组 作为 


参数 传递 给 sort0 国 数 ， 然 后 打印 排 好 序 的 值 。 


该 程序 产生 下 面 的 输出 : 


S 本 WK “- 王 日 品 I 七 马 工 ,aaWK 七 已 如 万 
.3SH “ame" 


SUPImaOCe - CIeate 避 SUPiImage Trom Dart of an jirmage. - 


.SH “Re1LaLew Cemnmanas" 
工 ma 可 忆 3YCEDIQeL， 
XaQadEiXel， 

其 CT 避 忆 十 Tmaag 已 ， 

基站 全 古 LPOY aa 台 安 ， 

其 EL 所 ， 

XS3GSeEPEILXCTL， 





广 旺 : 





下 一 于 清寺 论 西 数 Setliae， 它 提供 一 个 两 单 的 熔 制 输入 行 的 方法 。 
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已 人 RSUDEBTTaGee， 

SP 
调用 :个 天数 来 完成 排序 与 明 过 编写 或 复制 代码 , 米 完 成 相同 的 任务 相 比 较 , 其 优 
点 是 畏 数 是 经 过 测试 的 模块 ， 而 且 有 一 个 标准 的 接口 。 也 就 是 说 ， 你 知道 它 能 工作 
以 改 它 昆 如 和 何 工作 的 . 当 你 在 awk 中 编号 相同 的 排序 代码 时 ,使 用 了 不 同 的 变量 名 ， 
你 必须 训 览 它 以 证 实 它 和 其 他 版 本 以 相同 的 户 式 工作 .即使 将 代码 复制 到 另 一 个 全 
序 中 ,也 必须 做 -- 些 凋 整 来 适应 新 的 乓 境 。 对 十 :个 图 数 ， 你 所 需要 知道 的 只 是 它 
需要 什么 类 型 的 参数 以 及 它们 的 调用 序列 . 使 用 国 数 可 以 通过 减少 所 要 解决 癌 题 的 
复 林 程度 来 降 和 从 产生 错误 的 机 会 。 


由 上 以 上 嘟 木 假设 sortD 国 数 存在 本 单独 的 文件 中 ， 所 以 必须 用 多 个 了 选项 来 调用 


它 : 
号 aawWK 一 下 日 上 思 I.BwK -二 各 FeT .atWK 起 扬 昌 七 


这 里 的 国 数 sort0 在 文件 yortan 中 定 史 。 
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由 close0 林 数 加 


红 9 *， System0a 数 ，. 
底部 抽 导 *。 基于 莱 章 的 侠 全 开 磺 器 
“ 。 “直接 何 广 件 负 营 道 痊 出 ， 
ON 
.约束 ， 3 
。 村 用 ##! 滞 法 调用 ytk 


本 碍 蜗 证 是 放 不 是 “ 邯 东 西部 有 其 特定 的 位 置 。 不 警 握 样 安排 它 人 ,有些 东 是 看 起 
米 菊 是 不 合适 。 木 装 是 这 些 情 襄 的 “个 息 总 。 将 它 标 为 “高 级 开题 ”是 吸 5 中 大 的 ， 
涉 好 像 些 解 释 它 的 结构 (或 者 还 不 够 充分 刀 但 有些 读者 可 能 感觉 在 阅读 它 乙 前 应 访 
扰 进 “ 步 尝 习 。 我 们 因此 将 和 哩 佑 “底部 抽 腿 ”， 蕉 虑 抽 导 的 主体 结构 . 像 肉 衣 .、 袜 
子 和 其他 每 大 邦 烛 用 的 东西 放 在 抽 用 的 于 部 .而 不 经 常用 的 东西 ,例如 七 线 衫 党 起 
在 氏 部 抽 展 .所 有 的 这 些 都 是 同样 可 以 秦 得 的 .但 是 你 此 顷 傅 身 去 底部 抽 展 乒 东 西 。 
丰 乙 ， 需 要 蝎 多 的 努 几 去 得 到 底部 抽 慑 的 东西 。 

本 贡 包 含 以 下 几 个 证 题 : 


=。 getline 丧 数 

"” ”system() 的 数 

*， 直接 向 文件 和 管道 输出 
。 ”调试 awk 脚本 


getline 函数 

getiine 水 数 出 上 从 输入 中 读 取 另 -- 行 。getline 冰 数 不 仪 能 读 取 止 常 的 输入 数据 流 ， 
市 也 也 能 处 归 米 白文 件 和 管道 的 和 给 入 。 
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“底部 抽 层 ” 全 





getline 国 数 类 似 于 awk 中 的 neg 语句 。 两 者 都 是 导致 下 一 个 输入 行 被 读 取 ，next 
语句 将 控制 传递 回 独 本 的 顶部 .getline 图 数 得 到 下 一 行 伺 没有 改变 脚本 的 控制 .可 
能 的 返回 值 为 : 

1 如 果 能 鳄 访 取 一 行 。 

0 如 果 到 了 文件 水 尾 。 

-] ， 如果 遇 到 错误 . 








注 惠 : 尽管 getjine 被 称 为 个 国 数 并 且 返 回 了 -个 值 ， 但 它 的 语法 类 亿 于 一 个 语句 。 不 能 号 
成 getlinet)， 它 的 语法 不 允许 有 贺 括 号 ， 











在 前 面 的 章节 中 , 我 们 使 用 一 个 手册 页 源 文 件 作为 例子 。 通 常情 况 下 , -msna 宏 将 文 
本 参数 放置 在 下 - 行 上 . 尽管 这 个 宕 是 用 来 查找 行 的 模式 , 但 它 所 要 处 理 的 实际 上 
是 下 一 行 。 例 如 ， 从 帮助 页 中 秽 取 命令 的 名 字 ， 下 曾 的 例子 匹配 了 标题 “Name”， 
污 取 下 一 行 ， 关 打印 它 的 第 一 个 字段 : 
六 Serline.awk -- 宙 试 getllne 国 数 
yn "2NanmG > 
getIine # 取得 下 一 行 
Print S$1 世 打印 新 行 的 4 值 
1 
这 个 模式 上 配 任意 包含 “.SH” 且 其 后 跟 有 “Name” 的 行 ,它们 可 能 被 包围 在 引号 
中 。 “日 这 一 行 被 匹配 ， 我 们 使 用 getline 来 读 取 下 一 个 输 人 行 。 当 读 取 新 行 后 ， 
getliine 将 它 厂 给 $0 并 将 它 分 解 成 字段 。 坷 时 设置 系统 变量 NE、NR 和 了 NR。 因 此 
新 行 变 成 当前 行 , 这 时 可 以 引用 $1 并 检索 第 .个 字段 。 注 意 前 面 的 行 不 再 看 做 是 变 
量 30。 然 而 ， 如果 需 要 ， 可 以 用 getline 读 取 这 行 并 将 它 赋 给 一 个 变量 从 而 避免 改 
变 40， 正 如 我 们 马上 要 看 到 的 一 样 ， 


以 下 例子 显示 了 荆 面 的 脚本 基 如 何 工作 的 ， 它 的 功能 是 打印 在 “.SH Name” 后面 
的 行 的 第 个 字段 。 


号 awK - 王 所 昕 七 ]iRG.aWK 七 所 8 七 
其 SHI De 
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我 们 在 第 泌 章 “ 崩 数 ”的 最 后 镶 示 的 sorter.awk 程序 ， 世 可 以 使 用 getline 来 读 取 
标题 “Related Coemmands” 后面 的 所 有 行 。 我 们 可 以 道 过 在 while 循 环 中 测试 gettime 
的 返回 值 来 恋 取 芳 干 输 和 信行. 王 面 的 过 生 代 雷 了 sortet 程序 中 的 前 面 两 个 过 程 : 
升 且 表 “Relared raomnanas” 并 蚊 华 它们 
ER YLaec Poemran3s" 2， 1 
BTFTT 
友人 如 
SomTranaList = Corumang3TnjsL STD 


当 getline 成 功 地 读 职 闻 一 行 时 ， 表 达 式 “getline>0” 将 为 赴 。 当 到 达 文 件 本 尾 时 ， 
getline 返 问 0 并 退出 循环 。 


从 文件 中 读 取 


getline 图 数 除了 能 读 取 正常 的 输入 流 外 ， 还 可 以 从 一 个 文件 或 管道 中 读 取 。 例 如 ， 
下 般 的 语句 从 文件 如 如 中 访 取 了 了 一行: 


训 E LIIE < “ 亡 总 L 身 " 


尽管 文件 名 可 以 通过 “个 变量 来 提供 , 但 它 退 常 被 指定 为 字符 旧 常 其 , 这 字符 几 
须 用 引号 括 起 来 。 符号 “<” 和 sheli 程序 中 的 输入 重 定向 符号 一 样 ， 不 能 被 解释 为 
小 于 符 与 。 我 们 可 以 用 while 循环 从 文件 中 读 阳 所 有 的 行 ,， 蛮 试 到 文件 结束 时 特 
征 有 退出。 下面 的 例子 打开 文件 date 并 打印 它 揭 所 有 行 : 


Wiae fl 19etllmne < "atary > 曲 》 
Ri 


(这 里 加 上 括 驶 以 和 访 止 渴 乱 ; “<” 表 示 重 定向 , 而 “>” 是 对 返回 箱 的 一 个 比较 。) 输 
入 也 可 以 来 自 标准 输入 。 你 可 以 在 提示 用 户 输入 信息 后 使 用 getline: 
BEGIN 人 rjmrf "bnttet your aame: " 
和 CTLnE < “一 
PenL 
了 


这 “示例 打印 提示 “了 Enter your name:”( 使 用 prin 李 是 因为 我 们 不 想 在 提示 后 面 产 
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生 一 个 条 车 符 )、 然 后 调用 getline 获 取 用 产 的 响应 【 注 1)。 腹 户 的 啊 应 被 蕊 给 50， 
并 用 Print 语句 和 输出 这 个 需 ， 


将 输入 赋 给 一 个 变量 


getline 坝 数 侈 许 你 将 输入 记录 赋 给 一 个 变量 , 变量 的 名 字 作 鸭 :个 参数 来 据 供 。 下 
面 的 语句 从 输入 中 读 取 下 “ 行 并 赋 给 变 剧 训 put: 


曝 LTzmEe 二 PuUt 


将 输入 赋 给 -个 变量 不 会 影响 当前 的 输入 行 , 也 就 是 说, 对 5 没有 影响 。 新 的 输入 
行 役 有 被 分 解 成 子 段 ,因此 对 变量 NF 也 无 影响 - 仁 它 递增 了 记录 计数 器 NE 和 FNR。 


上 例 演 示 了 如 何 提示 用 户 。 这 个 例子 也 可以 按 下 面 的 方式 编写 , 将 用户 的 响应 刀 给 
变量 name。 


BEGIN T BILLE Erter You name 
自习 FE_ine <， “" 
了 节 int Iane 


注意 将 输入 数据 赋 苔 变量 的 语法 ,内 为 通常 错误 地 写成 : 
name = gaLlzne 二 错误 


这 里 将 getline 的 返回 值 赋 给 变量 name。 


从 管道 读 取 输入 
可 以 执行 一 个 命令 并 将 输出 结果 用 管道 铂 送 到 getiine。 例 如 ， 参 见 下 面 的 表达 式 : 


"whe am 1， | gecline 


这 信 棚 达 式 将 who am ii 命令 的 输出 结果 峙 给 知 ， 


号 二 已 上 攻 YC UL -8 3:37 





注 工 至 少 曾经 有 一 段 时 间 .nawk 的 SGI 版 本 不 支持 getline 用 "-" 从 标准 输入 中 读 取 ,Caveal 


em 和 tor。 
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这 个 行 被 分 解 为 字段 并 设置 了 系统 变 晶 NE。 同样 地 ， 你 也 可 以 和 将 结果 赋 给 一 个 变 
基 : 


DO ar 工 人 GE11P Te 


适 过 将 给 出 结果 赋 给 一 个 变 基 可 以 下 免 设置 80 和 NF, 但 输入 行 没有 被 分 解 为 字段。 





『 面 的 脚本 将 “个 命令 的 输出 结果 用 管道 输送 给 getline， 它 使 用 whe am i 命令 的 
输出 结果 得 到 用 户 的 名 字 , 然后 在 /etcppasswd 中 查找 这 个 和 名字, 打印 出 那个 文件 的 
第 五 个 字段 、 即 用 户 的 全 名 : 


awk ，* 直 Getnamne - 上 各 retcyPEasswad 文件 入 打印 用 户 千 区 
HG ， ”who am 1 | getlLinme 
ane = S 汪 1 
1 -5 
} 
Tamie ”5$1 1 BF 二 3 了 
上 7 让 EC ESSw 


命令 在 BEGIN 过 程 中 执行 ， 并 为 我 们 提供 用 户 的 名 衬 ， 沪 名 字 用 于 在 elcpasrd 
+ 查 拷 用 户 的 条 日。 就 像 前 面 所 解释 的 ，who am i 输 出 一 行 ，getiine 和 将 其 赋 给 40。 
输出 的 第 一 个 字段 $1 接着 被 赋 给 maame， 














字段 分 隔 符 被 规定 为 冒号 “: ”, 这 允许 我 们 访问 /etcjpasswa 文 件 中 的 条 目的 单独 的 
字段 。 注意 ，FS 在 执行 getine 之 后 设置 , 否则 将 影响 到 对 命令 的 输出 字段 的 分 解 。 





最 后 ， 主 过 程 害 设计 为 用 来 测试 第 一 个 字段 是 否 和 mame 匹 配 。 如 果 匹 配 ， 将 记录 
的 第 五 个 字段 打印 出 来 . 例如 , 当 Dale 运 行 这 个 程序 时 , 它 打印 “Dale Dougherty.”。 


当 一 个 命令 的 输出 结果 被 用 管道 输送 给 getline 上 且 包 含 多 个 行 时 ，getline - -次 读 取 
- 行 , 第 一 次 调用 getline， 它 将 读 取 输出 的 第 … 行 .如 果 次 调用 getiine， 它 将 读 
取 第 二 行 。 要 读 取 输出 的 所 有 行 , 就 必须 创建 “个 循 蒜 来 执行 Setline， 直到 不 再 有 
输出 为 止 。 例 如 ， 下 面 的 例子 使 用 while 循环 来 读 取 输出 的 每 一 行 并 将 它 赋 给 数组 
Who_oot 的 下 “个 元 素 : 





whiie (who'" | getlinel 
mhO_OuUL [++I] = 二 





每 次 调用 getline 的 数 时 ， 读 取 和 输出 的 下 - 行 . 然 而， 其 中 的 whe 命令 只 执行 -次 。 
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下 一 个 例子 是 在 一 个 文档 中 查找 “@data ”并 用 当 大 的 日 期 替换 它 : 


# subdake.swk -- 珊 当 大 的 上 期 备 换 呈 aake 

ZEQateA 
:ae + SF 则 SELLinme paay 
自己 U 有 【站 三 忆 二 呈 ， ， 七 ay 

} 

{ Prirt 上 


date 命令 使 用 它 的 格式 化 选项 ( 注 2) 来 提供 肌 期 ,而 getline 将 它 赋 给 变 避 today。 
gsubt) 国 数 用 当 大 的 日 期 碎 换 每 个 出 现 的 “和 @data”。 
以 上 脚本 用 于 在 格式 信件 中 洗 和 日期: 

TO: Feaibcdy 

FEom: 呈 nerman 


癌 冯 = 已 : 目 避 at 


II am Writing you on eaqatre 工 吕 
工人 minS You batut Dut S 所 ee al TEer。 


除了 包含 “@@date” 的 行 ,“@date” 被 用 当天 的 口 期 替换 外 ,其 余 的 所 有 行 都 按 原 
样 通过 : 

$ mwK -上 suUbdate .awk Bibdate .七 全 

TO PeaboaoyY 

FTem: Shermarl 


Date: Sun. ，May DSS， 工 号 日 丰 


工 am wrjtlng yo on Sum-，Mayr 05， 上 9966 “ 口 
ermIna ya2U baour oar Special ofEfer. 


close() 函 数 


Close 全 亲 数 用 寺 关 闭 打 开 的 文件 和 管道 。 使 用 它 有 以 下 儿 个 原因 : 


。 ”每 次 你 只 能 打开 一 定数 量 的 管 送 《参见 后 面 的 “约束 ”一 节 , 它 撒 述 了 系统 与 
系统 间 的 约束 的 区 别 )。 为 了 在 一 个 程序 中 能 够 打开 你 所 希望 的 数量 的 管道 ， 











注 2: date 的 轻 老 版 本 不 支持 格式 化 选项 。 克 其 是 SunDS5 4.1x 系 久 了 上 的 date 衣 永 ， 在 那 
里 邮 天 使 用 AHPinedate，。， 天 见 本 地 文档 。 
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尔 尾 须 用 elose 轩 数 束 关闭 一 个 你 用 过 的 管道 (通常 是 ， 当 setline 返回 0 或 
-1 时 )。 它 用 个 语句 来 实现 ， 和 用 于 ' 创 建 管道 的 表 运 式 相 同 。 十 面 站 一 个 例 
节 : 
总 

“。 关闭 一 个 管道 使 得 你 可 以 运行 加 :个 命令 两 次 。 例如 , 你 可 以 用 两 次 date 来 定 
时 “个 命令 。 


*。 ”为 了 得 到 :个 输出 管道 米 完 成 它 的 工作 ， 使 用 close 可 能 总 必要 的 。 例 如 : 


{ SmE Drocessino ar 0 | "sorr -kmpflle，》 
EMND 1 








CE SC HEmEE LEI) 
While 人 SetlLzne < LDOT_1e) > DT 
问 癌 OECD 


】} 


*。 为 了 保证 同时 打开 的 文件 数 不 超过 系统 的 限制 ， 关 从 打 开 的 文件 是 必要 的 。 


我 们 将 在 本 竟 稍 后 的 “处 理 多 个 文件 ”-- 韦 看 到 关于 elose0 国 数 的 例子 。 


System() 函 数 


systemf) 国 数 执行 “个 以 表达 式 方 式 给 出 的 命令 【 注 3)。 然 而 ， 它 的 命令 鹤 有 产生 
可 供 程序 处 理 的 输出 . 它 返 回 被 执行 的 俞 令 的 退出 状态 。 脚 本 等 待 这 个 命令 完成 后 
才 缘 续 执 行 。 下 面 的 例子 执行 了 mikdir 命令 : 


REGIN 1T 2 SYSEen ImEKOT aale") != D) 
BYrznL “Caormmard FatLed' 1】 


这 里 在 -个 证 语句 中 调用 systemO 才 数 , 来 测试 一 个 非 零 的 退出 和 状态。 运行 这 个 程 
序 两 次 ， 结 果 是 :次 成 功 和 一 次 失败 : 


点 mWwWK -上 ByYSLtem -3aWwK 

$ 18 dale 

SS 昌 W 了 王 Y 有 em .awk 
mkaiT: 忆 aTe: Fi1LE BeXjsts 


cmmama kaileo 


注 3 systetmt) 汤 数 楼 售 持 准 的 C 库 西 数 中 的 同名 凋 数 . 
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第 - -次 运行 产生 新 的 日 录 , 并 且 system() 返 问 退 出 状态 0 (成 功 )， 第 二 次 执行 这 命 
令 ， 目 录 已 经 看 在 , 因此 mkdair 失败 并 产生 个 出 错 信 息 .“Command Failed” 信 
生 是 awt 产生 的 。 


Berkeley UNIX 命令 集中 为 treo 竹 用户 提 供 了 :个 很 小 但 很 有 用 的 命令 soelim ， 这 
样 命名 的 原因 旦 因为 它 将 从 - :个 tro 生 输入 文件 中 “ 销 除 (eliminates)”“.so" 行 (.so 
基 -个 请 求 ， 包 含 或 “指定 ”命名 文件 的 内 容 的 来 源 )。 如 果 你 有 一 个 老 的 System 
V 系统 ， 它 没有 seelim ， 你 可 以 用 下 面 的 awk 有 期 本 来 创建 它 : 


ESD 站 SU ”SS3) 
Seterml cat "SS2) 
DCX 上 

{ Drint 


这 个 脚本 查找 在 行 的 开始 处 的 .so， 去 掩 所 有 的 引号 ,然后 用 systemt) 来 执行 cat 命 
令 间 输出 文件 的 内 容 。 这 些 输出 和 文件 中 剩余 的 行 合并 ， 如 下 面 的 例子 所 示 ， 它 被 
简单 地 打印 到 标准 输出 ， 


S 如 Bt 日 DLLim .七 所 日 七 
ThJs YSs 旺 上 eSsc 
口上 号 上 

TDhiIE 3 四 Ce 
-总 操 EeSsF2 

Thie 1s 己 Fest， 

号 Wk 一 在 日 口 虹 区, WK 与 司 全 上 二 im .七 所 自 大 
This 1S 已 eSt 

于] 芒 S 臣 :富生 如 Cn 
Le] 

了 iS LS 忆 上 SC 

七 五 茸 亿 全 二 工 忆 L 袜 
LVwe3SX 

Thia is 站 十 和 Bt - 


我 们 设 有 显 式 地 测试 命令 的 退出 状态 . 因此 ， 如果 指定 的 文件 不 存在 ,出错 信 息 特 
和 输出 融合 在 - ' 起 。 


$ 县 WK 一 王 纺 如 日 . 玫 Wk 所 Co 日 | 本 .七 日 母 姓 
THSS 于 当 王 上 中 5 

IILzgsL-ySseconG 

Smeirwo 

Th SS 当 阵 二 全 5 

呈 LammOr 总 Der “已 SLZ 


This 15 总 es- 
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我 们 乔 望 测试 systemf) 霄 数 的 返回 值 并 为 用 户 生 成 出 错 信 息 ， 这 个 程序 也 很 简单 : 
役 省 处 理 包含 丰 文件 中 的 “.s0"。 考 虑 赎 如 何 修改 这 个 程序 的 版 本 以 处 理 嵌 入 的 


“.30” 请 求 。 
下 面 的 例子 是 一 个 国 数 , 用 来 提示 输入 “个 文件 名 , 它 使 用 system0O 困 数 来 机 行 test 
命令 以 验证 文件 存在 并 且 可 读 : 


和 SerFijJerane 国 鉴 -- 如 二 用 六 输入 文件 名 
扩 验证 玄 件 名 在 在， 并 返回 绝 对 路 永 敬 


TuneiL ion 学 2 1 ea 于 Tel 
EL 1 el TY 
EL 二 ET nar 
Se' 12n0 < - 芋 此 肥 用 记 的 喇 谋 


fi 全 = 
+ 检查 交 件 存在 开 叮 这 
上 如 果 文件 不 存在 ， 测 斌 把 冲 1 
1 《syYsLem TI Lest -Fr ”filel) 1 
BFInr Te ”not Econa" 
二 = 7" 
了 
1 
“perl” | accline # 得 到 委 衣 时 路 
己 吕 SB Pwd 
于 1 
》 


二 ECYIL 下 上 和 


外 上 昌 数 返 问 了 由 用 户 指 定 的 文件 的 绝对 路 径 名 。 它 把 提示 信息 和 验证 序列 放 在 
while 循 荆 中 ， 以 便于 用 户 椒 前 -个 文件 非法 时 可 以 重新 输入。 


如 果 文 件 存 作 旦 可 读 , test -命令 将 返回 0 和， 再 则 返回 1 一旦 确定 了 文件 名 是 正确 
的 ,就 副 试 文件 名 是 否 以 “六 开始 , 躺 林 表明 用 户 提 供 了 一 个 绝对 路 径 名 。 如 果 测 
试 拓 败 ， 我 们 将 使 用 getline 图 数 去 获得 pwd 命令 的 输出 结果 ， 然 后 将 它 与 文件 名 
拼接 起 来 (不 可 和 否认， 该 脚本 没有 对 “., 普 和 “,..” 项 目 进 行 处 埋 ， 尽 管 测 试 匹 乱 
它们 很 容易 . ) 注意 8etline 国 数 的 两 个 用 法 ; 第 -个 是 获得 用 户 的 响应 ， 第 二 个 是 
执行 pwd 命令 。 





基于 菜单 的 命令 生成 器 


在 这 一 部 分 . 我 们 着 眼 于 systemf) 国 数 和 getline 国 数 的 一 个 常见 的 应 用 , 用 来 建立 
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基于 菜单 的 命令 生成 器 。 这 全 程序 的 日 标 是 为 八 熟 练 技术 用 户 提 供 一 个 简单 的 方法 ， 
来 执行 长 的 或 复杂 的 UNIX 命令 。 药 单 几 于 将 要 执行 的 任务 的 描述 提示 给 用 户 , 交 
许 用 户 使 用 数字 在 菜单 中 选择 要 执行 的 任务 。 





这 个 程序 被 设计 为 “种 解释 程序 , 它 从 文件 中 读 取 要 出 现在 菜单 中 的 描述 和 要 执行 
的 实际 命令 行 : 这 种 方式 可 以 使 用 多 重 药 单 命令 交 件 , 且 它 们 可 以 在 不 改变 程序 的 
情况 下 很 容易 好 被 不 熟悉 awk 的 用 户 修 履 ， 


菜单 命令 立 件 的 格式 是 在 文件 中 将 单 标题 作为 第 “ 行 。 后 面 的 行 包 揪 两 个 字段: 
第 - 售 是 要 执行 的 动作 的 描述， 第 一 个 是 要 热 行 的 命令 行 。 下 面 晨 一 个 例子 : 


三 和 上 UUCB， 妇 Gin 而 和 人 避 

UUCP SCSRLUS NEnmu 

DSSKR 引 在 1 Ta RDSDTRITinO var apooly orpapublL ic -brirt 
UK 忆 Yecenr STaruSs in LOGFIZR:tail var sboolomucby LOGF1ILGB 
工 品 台 下 站 了 了 个 睛 下 二 工 己 是 WT 7 有 区 品 站 1 ULCS 二 Te 区 


创建 基于 药 单 的 命令 生成 器 的 第 一 步 基 读 康 某 单 命令 文件 。 我 们 首先 读 取 文 件 的 第 
- 行 并 将 它 揣 给 变 巧 title. 余下 的 行 包括 两 个 字段 并 被 读 到 两 个 数组 中 , 一 个 用 干 
生成 菜单 项 ， 另 .个 用 于 提供 要 执 行 的 命令 。 在 -- 个 while 循环 中 使 用 getline 从 这 
个 文件 中 一 次 污 取 - 行 。 


SFRGIN 1T FS - 
让 【getline < CNMDFPI2E) > D) 
-it1le = 有 1 ， 
已 工 电 
所 基 了 革 上 
WE TtG9etLine < CDFILE) > 总 1 
# 输入 柳 组 
1 一 呈 工 工 亿 疝 王 入 工 了 避让 
开 区 音 项 的 数 纪 
me Ts IE 辣 上 a1 3 学] = 闻 工 
# 本 匡 音 项 相关 的 命令 的 数组 


号 DTmima 本 扫 zeDFaTTaY] = 有 $2 
仔细 观察 使 用 这 语句 和 while 循环 测试 的 表达 式 的 语法。 


IISeLllne < _ COMEFTTLEJ > 癌 


变 其 COMEFILE 是 菜单 命令 文件 的 名 宇 , 它 被 作为 一 个 命令 行 参数 来 传递 。 这 里 的 
商 个 符号 “<” 和 “>” 其 有 完全 不 同 的 功能 。 符 号 “<” 被 getline 解 才 为 输入 重 定 
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向 操作 符 ,， 然后 测试 gettine 的 返回 值 看 它 是 形 大 于 必 >” ) 0. 在 表达 式 中 使 用 括 缉 
的 日 的 是 为 了 使 袁 达 式 更 清楚 。 称 句 话 说 ， 首 先 计 算 “getline<CMDEFILE”， 然 后 
将 它 的 结果 与 0 比较 。 


这 个 过 程 被 放 在 BEGIN 模式 中 。 也 这 儿 有 一 个 问题 ， 因 为 我 们 图 将 菜单 文件 的 名 
字 作 为 命令 行 参数 来 传递 , 因此 变量 CMDFILE 在 BEGIN 模式 中 将 得 不 到 定义 并 
且 在 了 BEGIN 模式 中 不 可 用 。 换 句 话说， 下面 的 命令 是 不 起 作用 的 : 


aiwK 号 CLIIDPE CNMDLT 2 EE- uaucE_eommamce" 一 
因为 二 到 第 一 个 输 和 人行 被 读 取 后 变量 CMDFILE 才 有 定义 。 


幸运 的 是 ，awt 提供 了 -选项 来 处 理 这 种 情 疯 。 使 用 -选项 可 以 使 变量 被 立即 设置 
并 在 BEBEGIN 模式 中 可 用 ， 


awK -YY CNDPFTILE='UaCP_2ommarnds ”scripf - 


如 果 你 的 awk 版 本 被 有 -选项 ， 你 可 以 将 CMDEFILEE 的 值 作为 shelil 变量 来 传递 。 
创建 一 个 shell 程序 来 执行 awk， 并 在 该 采 本 中 定义 CMDFILE。 状 后 修改 inyoke 
脚本 《如 下 所 示 ) 中 读 取 CMDTILE 的 行 : 


while fiIgeLline < SCMHDFICE TI > DT 


- - 且 莫 单 命令 文件 被 装 裁 后 , 程序 必须 显示 某 单 并 提示 用 户 。 这 是 通过 函数 来 实现 
的 ， 因 为 我 们 需要 在 两 个 地 方 调用 它 : 从 BEGIN 模式 中 调用 它 以 向 用 户 提供 初始 
提示 ， 在 处 理 了 用 户 的 响应 后 再 调用 它 以 便 进 行 另 一 个 选 撞 。 环 面 是 
display_menuf) 的 数 : 


王 URCAICT， 可 1 总 世 二 7_ nenu lf) 1 
# 清 民 ~- 旭 果 清除 命令 竹 能 用 则 注释 掉 该 语句 
呈 Y 吕 CEATT CC 所 ar 
# 打印 标题 项 目 列表 ， 进 出 项 目 和 提示 符 
二 FT ELC1e 
Fo 人- 17 芝 = 吕 IzeDIaArrayi ++iy 
已 ZE “二 负 口 .有 Sn" ， 工 ，menu[-] 
BTmE ”二 呈 避 -TS 二 Am。 工 
且 上 工 E 【1 noosE Drie: :1 
】 


我 们 敌 的 第 一 ' 件 事 就 是 使 用 system0) 国 数 来 调用 一 个 命令 以 清除 屏幕 (在 我 的 系统 
中 ， elear 可 以 完成 这 些 工 作 ; 在 其 他 的 了 系统 中 可 能 用 els 或 共 他 命令 。 如果 找 不 到 








这 样 的 命令 则 将 这 一行 注释 掉 )。 然 后 我 们 林 角 标题 和 编号 列表 中 的 每 项 ,最 后 一 项 
始终 是 “Exit 。 基 乒 ， 我 们 提示 用 户 寺 择 。 


这 个 程序 将 接站 标准 输入 , 这 使 得 用 户 对 提示 的 响应 被 作为 输入 的 第 一 行 。 我们 在 
这 个 程序 中 该 取 菜 单 命令 文件 ,但 它 不 是 作为 输入 流 的 - 部分。 因此, 这 个 程序 的 
主 过 程 就 是 对 用 户 的 选择 做 出 响应 并 执行 命令 。 下面 是 这 部 分 程序 : 





# 处 隘 用 户 村 提示 的 咖 库 
一 间 灾 试 用 请 可 的 仁 


ES1 > 总 ES <=- 9512eDEarrayr) 
# 打印 被 执行 的 命令 
DPITLTH 【RECLE2nS .和 Sm" egnandiSl]》 
# 炙 后 技 行 它 
SYSEeImICOIEIB-IOG SS ] 1) 
BITmEEI"<PrESS RETURN LO conrjnoe> "1 
# 存 冉 次 旭 末 菜单 前 等 竺 输入 
意 己 在】 瑟 

上 上 

忌 ]S 台 
全 其 计 

# 重新 显示 菜单 

isP1ay_menmnu [1 

1 


首先 ， 我 们 检查 用 户 的 响应 范围 。 如 果 响 应 超出 了 范围 ， 我 们 只 简单 地 退出 程序 ， 
如 果 是 有 效 的 酮 应， 那么 我 人 从 eommand 数组 中 检索 这 个 命令 ， 显 示 它 ， 并 使 用 
systemt) 轩 数 执 行 它 。 用 户 将 在 屏幕 上 看 到 命令 的 执行 结果 且 后 面 跟 有 信息 
“<Press RETURN to continue>"”。 昌 示 这 个 傅 息 的 昌 的 是 在 请 除 屏幕 重 并 新 显示 菜 
单 前 等 待 用 户 操作 的 完成 . getline 函 数 使 程序 等 待 用 户 的 响应 , 我 们 对 这 个 响应 不 
做 企 何 事 。 函 数 display_menu0 在 这 个 过 程 的 末尾 被 调用 , 用 来 重新 显示 菜单 并 所 
示 输 入 另 一 行 。 


下 面 是 ipvoke 积 序 的 全 部 代码: 


awX -7 CCMDFTLE="uucp_conmmanads" :# 调用 -- 基 十 菜 和 昔 的 
# 命令 生成 器 

# CHMDFILE 中 的 第 行 是 间 昔 的 标题 

# 后 面 的 行 伺 合 :$1 一 描述 

# 3 要 执行 的 命令 

BEGI 司 1 ES -4 

# 处 再 CMPFIIER, 将 项 日 浇 入 菜单 数组 


iz figetiine < CMORPTLE) > 0 


rr 一 一 一 
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睫 -一 


上 


1 

己 上 SF 
si 

hi TO PS TYDFIT3T DY 
5 输入 数 纪 


+ 也 EarTRY 
上 问 贡 项 的 数组 
工 所 L“ 避 二 人 下 m TaY] - 立 | 
f 5 业 单 项 相关 的 命令 的 数组 
CCETIdIG [LeeOOEarTay ] - 
1 
# 珊 用 二 数 时 计生 单项 和 提示 征 


羡 _ 虽 Rs TI Y 
处 理 出 广 对 提示 的 师 点 


# 测试 用 交 几许 的 但 
了 
f# 打印 执行 的 命令 
从 了 站 上 守卫 区 和 CUC IT 可 ，. .对 Sm Conamne ft 点] 》 
+ 然后 执行 它 
急 YetetTeemmand[SY 1 
riTittT eeFTeSS RETURIJ LO COIL1ILG> 1 
有 得 深 显 示 染 单 前 等 竺 办 人 
3CLLTPmE 
1 
品 ~ 号 中 
已 区 让 
# 重新 显 币 荣 单 
纺 isPlay TernaTf) 


2UTICEicn 15sPavw_ menuafty Ti 


+ 消 屏 -- 如 果 不 能 清除 ， 这 试 “c1s” 

SYSLeEm 1 ' 它 1 所 az， 

# 打印 标题 ， 项 目 列表 ， 退 出 项 日 和 提示 符 

有 FLnt "MA 廿 ” 七 工 > 所 

fcer 人 = 工 ) 之 <= SIzEDERTIRY ++1) 
BITIREE “ts$a sn Imenuaril 

PELmEE "七 向 梧 .Extsm 了 

in Choose ne: "1 

















当 用 户 运 行 这 个 竹 序 时 ， 显 示 如 下 的 输出 : 


UUCPE Srasuas MenL 


1 .DLRoOK 只 EtiLes nm PPURDIR 

4 .LOOK 忌 E ECeTt StatLuUs 宝 DOSRITDE 
3 .LaooK 上 or 1ocK 人 1R 

站. FEEC 


袜 NDOEE DT 人: 
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川 户 被 提 尿 输入 荣 单 选项 的 网 号 。 输 入 1-3 志 间 以 外 的 任何 数字 部 能 退出 菜单 。 例 
如 ， 如果 用 卢 输入 “!” 用 十 了解 在 wucp 公 共 日 录 下 的 文件 列表 ， 那么 任 屏幕 上 将 
并 示 下 面 的 结 抄 : 














了 KPIE mnCG vare3spooLiarRPODTEC -PELJTT 
Ver osnoc UnEBPURLL 

rz 5SDec UPRRUDT ICY CaLE 

VerSDneon -UPPUDLiCy HYEerbEUO2 

DPC RETURN 5 CarEIIIR 


当 用 户 按 RETURN 键 时 ， 菜 单 将 重新 显示 在 屏幕 上 。 用 户 可 以 饮 择 “4” 来 退出 富 
个 程序 。 





这 个 程序 实际 上 就 是 一 个 shell, 用 以 执行 其 他 命令 .任何 命令 序列 (甚至 是 其 他 awk 
程序 ) 可 以 通过 修 卜 某 单 命令 文件 来 被 执行 。 摘 名 话说 ,程序 中 最 可 能 需要 修改 的 
部 分 被 提取 了 出 来 , 并 通过 维护 一 个 独立 的 文件 来 完成 修改 。 这 使 得 菜单 列 表 可 以 
被 非 专业 的 用 户 很 容易 地 改变 和 扩展 。 


直接 问 文 件 和 管道 输出 


任何 Print 和 语 名 可 以 用 输出 重 定 问 操作 符 “>” 或 “>>” 声 接 将 输出 外 果 
写 人 :个 广 件 中 。 合 如 ，、 下 面 的 语句 将 当前 记录 写 到 文件 dure.ort 中 : 


PrimeE > “" 吕 aBS.DOUE 


文件 名 可 以 是 任何 能 产生 合法 的 文件 名 的 表达 趟 。 第 次 使 用 恒定 向 操作 符 和 将 打开 
文件 , 随后 使 用 重 定向 操作 符 将 数据 追加 到 文件 中 。“>” 和 “>>” 之 间 的 区 别 和 shell 
中 的 重 定向 操作 符 之 间 的 区 别 相 同 。 右 尖 插 号 “>” 在 打开 - .个 文件 时 截断 它 ， 而 
“>> ”符号 将 保存 文件 中 包含 的 任何 东西 并 向 文件 中 妃 加 数据 。 


因为 重 定向 损 作 符 “>” 和 关系 操作 符 是 一 样 的 , 所 以 当 你 用 表达 式 作为 print 命令 
的 参数 时 可 能 会 产生 混 消 。 规定 当 “> " 出 现在 任何 打印 语句 的 参数 列表 中 时 被 看 做 
起 重 定向 操作 符 。 要 想 使 “> ”出 现在 袁 达 式 的 参数 列表 中 时 被 看 做 是 关系 操作 符 ， 
可 以 用 网 揪 号 将 表达 式 或 参数 列表 括 起 来 , 例如 , 下 面 的 例子 用 圆 括号 将 条 件 表达 
式 括 起 来 以 确保 关系 表 运 式 被 正确 求 值 : 
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PT2E =， 恒 ，"Dh= "max="，idayb 了 站 :上 > Gara Out 


条 件 表 返 式 用 于 计算 a 昆 否 大 于 b, 如 果 是 , 那么 将 a 的 值 作为 最 太 值 打印 ; 否则 ， 
打印 b 的 值 。 


直接 输出 到 一 个 管道 
你 也 可 以 和 将 输 出 直接 气 人 一 个 管道 ， 命 令 为 : 
Deint | command 


读 命 令 在 第 一 次 执行 时 打开 :个 管道 ， 并 将 当前 记录 作为 输入 输送 给 命令 
comntand。 换 名 话说 ,这 里 的 命令 只 执行 了 -- 次 ， 但 每 执行 一 次 Print 命令 将 提供 
另 一 个 输入 行 。 


下 别 的 禾 本 将 当前 输入 行 的 troff 宏和 请 求 去 掉 ， 并 和 将 该 行 作为 we 的 输 人 来 计算 文 
件 中 有 多 少 单 词 : 

13 words .awk -去 岳 央 ， 然 后 得 到 单间 数 

Supblrnsv en 


D=int 】 "wwc -W" 


1 
通过 删 除 格式 化 代码 ， 我 们 得 到 了 更 准确 的 单词 数 ， 


在 大 多 上 数 情 况 下 , 我 们 宁愿 使 用 shell 脚 本 将 awk 命令 的 输出 结果 , 用 管道 输送 给 另 
一 个 命令 ， 而 不 是 在 awk 脚本 中 来 处 理 ， 例 如 ， 我 们 将 前 面 的 例子 改写 成 shel 脚 
本 ， 调 用 awk 并 用 管道 输送 它 的 结果 给 we: 

awk '{f # worgas -- 去 掉 宏 

SUbIA An -2 

了 TI 

SS 

# 得 到 单词 数 


CC 一 多 


这 种 方法 更 简单 且 更 容易 理解 . 然 而 ， 另 -种 方法 的 优势 是 可 以 完成 相 局 的 工作 而 
且 不 用 创建 shell 脚本 。 





注意 ， 每 次 只 能 打开 一 定数 量 的 管道 。 使 用 closeO 旦 数 关 闭 用 过 的 管道 。 
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处 理 多 个 文件 

当 读 文件 或 写 文件 时 文件 被 打开 。 每 个 操作 系统 对 一 个 正在 运行 程序 能 名 同时 打开 
的 文件 的 数量 都 有 - 定 的 限制 。 而且, 每 个 awk 实现 对 打开 文件 的 数量 都 有 内 部 限 
制 ， 这 个 数字 可 能 比 系统 限制 要 小 ( 注 4)。 为 了 各 免 打 开 过 多 的 文件 ,awk 提供 
close0) 邱 数 用 寺 英 闭 打开 的 文件 .关闭 已 经 处 理 完 的 文件 可 使 程序 打开 更 多 的 文件 。 


和 直接 同文 件 写 人 输出 的 一 个 常见 的 太 法 ， 吡 将 个 大 的 文件 分 割 成 几 个 小 的 文件 。 
尽管 UNIX 提供 了 有 用 的 spiit 和 esplt 命令， 它们 可 以 完成 相同 的 工作 ， 但 它们 不 
能 为 “个 新 文件 指定 一 个 有 用 的 文件 名 。 


类 似 地 ， 也 可 以 用 sed 来 忆 人 文件 ,得 必须 指定 一 个 固定 的 文件 名 。 在 awk 中 ， 你 
可 以 几 变 坚 来 指定 文件 名 并 从 文件 的 模式 中 挑选 -一 个 值 . 例如 , 如 果 $1 提供 :个 可 
以 作为 文件 名 的 字符 串 ， 你 可 以 编写 一 个 脚本 将 每 个 记录 输出 到 它 对 应 的 文件 中 : 


PIIinC S0 > 二 1 
也 许 需 要 测试 文件 名 以 确定 它 的 长 度 或 查找 不 能 用 在 文件 名 中 的 字符 。 
如 果 不 关 闭 文件 , 那么 ,这 个 程序 最 终 将 用 完 可 打开 的 文件 数 而 林 得 不 中 小 、 我 们 


将 要 看 到 的 这 个 例子 可 以 正常 工作 , 因为 它 使 用 了 eleseO 明 数 , 它 的 运行 不 会 超出 
打开 文件 数 的 限制 。 


下 面 的 脚本 用 于 将 一 个 包含 大 量 帮 助 页 的 大 文件 分 割 为 小 文件 。 每 个 帮助 页 以 一 个 
注册 编号 开始 并 以 一 个 空 行 结束 : 


-HT 区 站 


【尽管 帮助 页 在 大 多 数 部 分 使 用 了 -man 宏 , 帮助 页 的 开始 部 分 具有 何 怪 的 编码 , 使 
得 事情 有 点 困难 。 ) 提供 文件 名 的 行 如 下 所 示 : 


-LT ADX<D ,9S 其 其 DrawLimne ""” "其 1153 - 了 rawing Priratiwes， 


这 个 行 的 第 五 个 字段 .“XDrawLine” 包含 文 件 名 . 也 许 编写 这 个 脚本 的 惟一 困难 是 





广 4: Eawg& 企图 通过 先 关 闭 再 重新 打开 文件 ， 来 打开 比 系 统 限 制 更 多 的 文件 。 及 管 gawk 是 
“聪明 的 ， 查 关闭 你 德 用 过 的 文件 更 有 将 。 
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第 “ 行 不 是 给 出 文件 名 的 行 。 因 此 ,我 们 将 这 些 行 写 人 -全 数组 中 真 到 找到 文件 名 。 
旦 找到 文件 名 ,我 们 就 输出 这 个 散 组 ,并 从 这 - 售 壮 井 始 将 每 个 输入 行 号 人 个 


新 的 文件 中 .下 掉 基 man.split 脚本 : 


# man 311 -分 卫 包 售 x 的 帮助 页 的 玄 件 


BBCGJIN Ti 1 = 0 2erame - 


+ 莉 撞 赴 页 的 第 项 是 “ar 和 人 
上 赤 厂 -行为 罕 
TIT 
4 这 全 共 件 蚁 集 行 直到 得 乔 一 -个 交 什 芭 
iFile -= 
Tirel+r-Il = 8 
它 ] 三 
FSmE 上 疙 > 于 1 上 emame 
# 号 本 提供 文件 名 的 行 
ii 1133 
+ 趣 有 一 个 文件 名 
奔 了 让 T 引 冲 作 = 上 三 
fo - 工 
# 将 名 字 和 输出 到 展 莫 
PTILL tt Terra 所 
# 打 虽 收集 的 所 布 行 


for IX- 1 区 er- ji: -+xl T 


PTint me[xX > 1]enmame 


# 关闭 开 洛 情 
if 1S0 ”SS 
安 荆 怠 人 刀 1 半 1enarne1 


上 计 工 TBJRE - ”” 
[ie = 站 
= 下 


} 


可 以 看 出 ， 我 们 使 用 变量 如 e 作为 标记 素 表 示 我 们 是 再 有 - :个 合法 的 文件 名 ， 以 及 
能 人 否 对 这 个 文件 进行 气 人 .最初 , file 为 0, 并 及 当前 的 输入 行 被 存储 在 - -个 数组 中 。 
变量 ij 是 -个 用 于 数组 下 标的 计数 器 。 当 我 们 过 到 设置 文件 名 的 行 时 , 将 file 设 置 为 
1。 新 文件 的 名 字 打 印 在 屏幕 上 ， 以 便 用 户 能 从 程序 中 得 到 靶 本 执行 过 程 的 一 些 反 
证 。 然 后 我 们 循 永 访问 这 个 数组 ， 并 将 它 输出 到 .个 新 文件 中 。 当 读 取 下 - .个 输入 


行 时 ， 人 le 将 被 设置 为 1 旦 print 语句 将 把 它 炉 出 到 被 命名 的 文件 中 。 
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户 
生成 柱状 报告 
本 市 描述 了 -个 小 型 商务 应 用 程 译 , 产生 美 抑 数量 的 报告 . 这 个 应 用 程序 没有 介绍 
任何 新 的 功能 . 它 只 是 闫 重 介绍 了 awk 对 数据 的 处 理 能 力 和 报告 功能 《 令 人 奇怪 的 
是 ，“ 些 人 确实 用 awk 编 气 些小 的 商务 应 几 得 序 )， 


假设 咏 有 “个 处 理 数 据 条 日 的 脚本 。 该 数据 条 日 脚 林 有 隔 项 1. 作 : 第 -项 是 输入 客 
户 的 名 字 和 递 人 地 十 ， 以 便 在 后 面 创 建 通 信 地 址 列表 ; 第 - :项 是 记录 客户 有 其 了 个 
项 目的 订单 , 包括 每 项 的 订 数 总 每 项 的 单价 。 包含 通信 列表 和 客户 订货 的 数据 被 号 
人 不 同 的 文件 。 





下 面 是 客户 订单 文件 中 的 是个 客户 记录 的 样本: 


Char1atte 钙 呈 EC 

PP1531 97 YY Pb 辣 CE 自 了 1 和 写 3 
上 ”了 .5 

# 井 2 3 3.50 

井 3 革 了 ,5 

#<s 1 7.50 

斗 了 人 了 .< 他 

MaTt iD 号-RDS3SL 

已 .总 WOMF Dat 人 : 了 3 4 号 了 
#1 2 ?了 .5 

并 ? 站. 35 


每 个 订单 包含 多 行 , 并 用 一 个 空 行将 不 同 的 订单 分 隔 开 。 前 面 两 行 担 供 了 寡 户 的 名 
字 , 购买 订单 编号 和 订货 日 期 , 后面 的 每 个 行 用 编号 表示 一 个 项 目 、 订 货 数 量 和 项 
自 的 单价 。 


我 们 米 编 写 一 个 简单 的 程序 , 用 价格 乘 以 订货 数量 。 这 个 脚本 将 忽略 每 个 记录 的 前 
面 两 行 。 我 们 仅 在 指定 为 项 目的 地 方 读 取 相 应 的 行 ， 如 下 例 所 大 ; 
ak ，x 林寺 
IOUDL = 上 2 十 包 了 
让 FILmTLTL “省 S 更生 .二 En Samount 
EX 


1 ETinL 7 上 二 + 


这 里 的 主 过 程 具 影响 匹配 模式 的 行 。 它 用 第 一 个 字段 乘 以 第 三 个 字段 , 并 将 结果 赋 
给 变量 amonnt。Printf 格 式 转换 符 “ 多 太 用 十 打印 一 个 浮 点 型 的 数据 .“6.2” 指 定 


To ni mvere mrrmeegpgerresair cr -一 一- 一 一 一 
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最 小 输出 域 帝 度 为 6 且 精 雇 为 2. 精度 区 十 进 制 小 数 点 右边 的 数字 的 个 数 ，%f 的 默 
认 值 是 5。print 语 杀 打 印 当 前 记录 以 及 变量 amount 的 值 。 如 果 和 在 这 个 过 程 中 打印 
一 行 . 则 将 从 标准 输入 中 读 取 下 一 行 。 如 果 行 和 模式 不 匹配 ,将 简单 地 被 临 过 。 我 
们 来 看 addem 是 如 何 耻 作 的 





占有 避 语 em 已 世 生 工 昌 

Char1Lette Wepbb 

己 .D pl1331 3837 YY 045 Date: 03714797 
夺 了 了 .5D 22.50 

# 3 7.50D 22.50 

#3 了 .50 了 .50 

间 站 1 .5D 了 .5 

# 7 1 7.5D ?7 50 


Ia 上 iD 号 -Ross 

王 .D NONME Dare:D32714737 
#] 2a7-50 15.00 

间 3 乒 .95 33.75 





这 个 程序 不 必 将 客户 的 记录 作为 一 个 整体 来 访问 , 它 只 是 简单 地 对 独立 的 项 目 行 进 
行 处 理 。 现 在 ， 我 们 来 设计 一 个 程序 以 读 取 多 个 记录 ， 并 累计 订单 信息 ,以 便 显 示 
报告 。 这 个 报告 将 显示 每 个 项 目的 总 i 单 份 数 和 总 县。 我 们 还 希望 产生 所 有 订单 的 
总 份 数 和 上 总 数量 。 


该 脚本 将 从 设置 字段 和 记录 分 隔 符 开始 : 

BEGIN { BBS = "mn RS = ""} 
每 个 记录 的 字段 数 是 可 变 的 , 这 依 炉 十 订货 的 项 目 数 。 首先， 我 们 检查 输入 记录 至 
省 有 3 个 字段 。 然 后 用 一 个 for 循环 从 第 三 个 字 朗 开始 读 取 所 有 的 字段 。 


ME >= 了 了 革 
for 1 = 了 Te<= NET +Hih 


在 数据 库 术 语 中 , 每 个 字段 有 一 个 值 卫 每 个 值 还 能 再 分 成 子 值 。 也 就 是 说 ， 如 果 在 
多 行 记 录 中 “行为 一 个 字段 则 子 值 就 是 行 中 的 单词 。 我 们 可 以 用 split0) 函 数 将 一 
个 字段 分 割 为 子 值 ， 


这 个 肢 本 的 下 面部 分 将 每 个 字段 分 割 为 子 值 。 旷 提供 当前 字段 的 值 , 它 将 被 分 制 到 
数组 order 的 元 素 中 : 


SV = SnLILILISLTI，DDrasr，" 1) 
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if {sv -= 31 1 

CecUFE 刀 
} 吕 1 5 所 

BEInL ”JIIICOmEELS 及 ECQOFG 
， 3 缚 束 循环 


函数 返回 的 元 素 的 个 数 被 保存 在 变量 sy 中 . 根据 sy 可 以 测试 是 否 有 3 个 子 值 。 如果 
和 没有， 将 执行 else 语句 ， 在 屏幕 上 打印 出 错 信息 。 


接着 我 们 将 数组 的 每 个 独立 的 元 素 指 定 给 一 个 特定 的 变量 .这 主要 是 为 了 更 容易 地 
记 住 移 个 出 现 所 表示 的 意思 : 


上 ilLe - oraer[1| 
Cooies = Drder[2] 
Price = Craer.3] 


然后 我 们 对 这 些 值 进行 一 些 算 术 运 算 : 


我 们 对 这 些 值 进行 累计 ， 直 到 读 完 


以 下 基 整 个 程序 : 
Cat adaemup 
# 1 zamnysh 
# adqemup -- 合计 客户 订单 
awk "ECEIN fES = "nt RG = ""”， 】} 
NE >= 3 1 
for ! = 3 <= ME +4+31 
SUw 一 要 外 1 人 【SS 记 上 Qez， "1) 
IE (ev == 3) 1{ 
上 LE1e = Order ilL] 
它 扬 折 1 挟 当 = 四 er [3】 
TDPrice = Dreder[3] 
GUIIOUIIL = GDBDT 上 SS 和 工 工 全 总 
上 total_wel += Copies 
七 已 上 壮 _amIL +- afwUTI 
VOL [七 工人 ] += CPPIeS5 
amc [tib1lel += amcunt 
上 台 工 呈 名 
PBFint "IacomP1ere Recerd" 
了 


amounE = CCDIES FILCE 
七 已 芋 二 1._wD1 + 一 COBIES 
朽 妇 上 瑟 _amE + 一 amoOUT 二 
woOL[TEILLB] +- Coap1eS 
aaIIt 【It1LE] += amCLITt 


-corcraaamemreppiimiiiv - 一- -一 - -一 一 - - 


后 “条 记录 。 ED 过 程 用 于 打印 报告 。 
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SNMD ! 
TELDPLE “和 L3、L 千 ] 训 吕 A 上 和 折 smsn TIT 二 ECCFRS SODD"， ”TOTSL 
Le :IIzle iT weai 
素 症 站 臣 于 “ 允 吕 半 L 训 二 宇 七 定 二 1， waoLLEtIC1Le]，armntk atel] 
PEImtT “站 0 一- ------- 
王 二 二条 局 和 和 本 革 训 刘 了 2 "， "TOERL  ， 上 oftal_voLl，1Lozal_art 
]” 写 才 


我 们 定义 了 两 个 下 标 相 同 的 数组 。 我 们 只 需要 用 “个 for 循环 来 读 取 这 两 个 数组 。 


订单 报告 生成 臣 addemnump 执行 结果 如 下 : 


4 aadaermup 所 de 工 各 


TzTLE COPIES 30LD TOTaL 
才 : 5 SS 37.50 
## 有 外 S6.35 
旧 3 1 此 了 .5 
二 入 1 台 了 .5 
4 了 1 了 .5 

Total 26 这 116.25 


调试 比 编程 的 任何 方面 都 更 容易 令 人 灰心 ,也 更 必 不 可 少 , 在 本 节 中 , 我 们 将 了 解 
awk 脚 李 的 油 试 方法 ， 并 给 出 了 当 awk 程序 不 能 如 期 工作 时 ,应 如 何 修 收 awk 程序 


现代 的 awk 版 本 提供 了 报告 语法 错误 的 良好 弓 能 。 介 是， 就 是 具有 一 个 好 的 错误 检 
测 功能 , 将 问题 弧 立 出 来 是 很 困难 的 。 寻找 问题 根源 的 技术 是 很 少 的 , 却 是 必须 的 。 
不 这 的 是 ,大 多 数 awk 实现 没有 担 供 调试 工具 或 扩展 。 


一 个 穆 序 有 两 类 问题 。 第 一 类 是 程序 逻辑 上 真正 的 错误 (bug)。 也 就 是 说 ,这 种 程 
序 运 行 完成 后 并 疫 有 报告 任何 出 错 信 息 , 但 产生 的 结果 却 不 是 所 希望 的 。 例如, 或 
许 不 生成 任何 输出 。 这 种 错误 可 能 是 没有 用 primt 语句 打印 计算 结果 引起 的 。 程 序 
错误 是 岂 路 上 的 错误 ， 


第 二 类 错误 是 程序 不 能 运行 或 不 能 完全 运行 。 这 可 能 是 语 闪 错误 引起 的 ， 并 导致 
awk 疝 你 警告 它 所 不 能 解释 的 代码 。 许多 语法 错误 是 由 于 输入 错误 或 漏 掉 括号 的 错 
长 。 请 法 错误 和 常 会 产生 出 错 信息 以 引导 你 找到 问题 所 人 在。 有时， 程序 引起 awk 失 
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败 【 或 “core dump ) 而 没有 产生 任何 有 用 的 出 错 倍 息 【 注 5)。 这 也 可 能 是 笑 法 错 
误 引 起 的 , 但 有 些 辣 题 可 能 与 机器 有 关 。 我 太 有 上 儿 信 大 脚 杰 在 这 - : 台 机 器 上 运行 时 
出 一 core dump， 而 在 另 一 台 上 适 行 却 投 有 问题 。 俩 如 ， 可 能 你 的 运行 建 反 了 awkx 
对 特 忽 实现 的 约束 【参见 本 章 后 面 “ 约 东 ” 一 节 )。 


你 应 庐 清 类 你 杷 投 到 程序 的 那 种 类 型 的 bug: 逻辑 错误 或 诸 潜 错误 ， 


制作 副本 


在 并 始 阅 斌 程序 前 . 先 做 个 它 的 副 契 。 这 昆 很 重要 的 。 要 调试 .个 amwtk 脚 本 ,就 
不 得 不 修改 它 。 这 些 修改 可 能 会 指出 你 的 错误 , 但 许多 修改 都 是 没有 效果 的 或 可 能 
产生 新 的 错误 。 能 将 你 的 修改 灸 和 揽 星 很 好 的 .。 但是， 铁 复 所 做 的 每 -个 修改 有 些 繁 
锁 ， 因 此 我 喜欢 一 直 修改 我 的 程序 直到 找到 门 题 。 当 知道 问题 昆 什 么 时 ,去 回 到 原 
始 的 各 序 皮 本 并 做 修改 。 实 际 上 是 用 一 个 副本 恢复 你 所 做 的 所 有 无 意 匀 的 修改 。 





将 创建 一 个 程序 的 步 又 看 成 儿 个 阶段 也 是 有 帮助 的 .将 设置 每 个 核心 工作 作为 个 
单一 的 阶段 。 -一旦 你 完成 了 这 些 功能 并 且 测 试 了 它们 后 , 在 进 人 下 一 个 阶段 设计 新 
的 功能 之 前 为 程序 做 一 个 备份 .用 这 个 方法 ， 当 你 增加 新 的 代码 产生 问题 时 就 可 以 
恢复 到 前 面 的 状态 。 


我 们 建议 你 使 用 这 个 方式 进行 ， 基 至 可 以 使 用 涯 代码 管理 系统 。 和 例如 SCCS ( 源码 
控制 系统 )，CRS (版 本 控制 茶 统 ), 或 CVS{ 并 行 版 本 榨 制 系统 . 它 和 RCS 蚌 兼容 
的 )。 后 面 两 个 从 GNU FTP 镜像 站 点 免费 获得 。 





前 像 和 后 像 


在 awk 调试 中 的 困 次 是 你 并 不 是 总 知道 在 程序 执行 过 程 中 发 生 了 件 生 ,。 你 可 以 检查 
答 入 和 榆 出 ， 也 没有 办 法 中 止 程序 执 行 并 检查 它 的 状态 。 因 此 , 要 想 知 道 巧 程序 的 
哪 “部 分 引起 的 判 题 是 很 困难 的 。 


通常 的 问题 是 傅 定 程序 在 什么 时 间或 什么 地 方 对 变 旺 进 行 赋值 .第 一 个 方法 是 使 用 
print 语 和 铝 在 程序 中 不 同 地 方 打 印 变量 的 值 , 鲍 如 , 使 用 一 个 变量 作为 标志 来 确定 产 


证 全 : 这 说 明 au 让 的 实现 是 粗略 的 , “core Jump” 在 awk 的 现代 版 本 中 很 少 发 旺 。 





一- 
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生 了 某 种 特定 的 条 件 是 很 通用 的 。 在 程序 的 开始 部 分 ,标志 被 设置 为 0。 在 程序 的 
一 个 或 更 多 个 所 ， 这 个 标志 被 设置 为 1。 问题 是 找到 变化 到 底 在 那里 发 生 。 如 果 你 
想 在 程序 的 特定 部 分 检查 这 个 标志 ， 在 赋值 的 前 后 应 用 prinat 语句 。 例 如 : 


Er-inC5 上 1aq， ”Detore 
本 111 


Flag - 工 
和 
EBPIIR 全 C。， "ar 
如 果 不 能 确定 -- 个 替换 命令 或 因数 产生 的 结果 , 在 调用 遇 数 的 前 后 打印 相应 的 字符 
串 : 





Br=inE 全 2 
Sui et 
ErTim 上 号 3 


在 替换 命令 之 前 打印 值 为 的 是 确信 这 个 命令 发 现 了 你 希望 出 现 的 值 前 面 的 命令 可 
能 已 经 改变 了 那个 变量 , 问题 将 可 能 是 输入 记录 的 格式 不 是 你 所 想像 的 。 仔细 检查 
和 输入 是 调试 的 “个 重要 步 又 。 尤 其 是 ， 可 以 使 用 print 语句 证 明 输 和 的 各 个 域 与 所 
期 望 的 - - 样 。 当 你 发 现 是 输入 引起 的 问题 时 ， 可 以 覆 正 输入 或 编写 新 的 代码 来 适应 
它 。 


查找 问题 的 出 处 


一 个 嘟 本 越 且 模块 化 ( 它 可 以 分 割 成 的 单独 的 部 分 就 越 多 ) ,测试 和 调试 程序 就 越 容 
易 . 编写 函数 的 优点 是 可 以 将 国 数 内 部 所 做 的 处 理 隔 离开 ,并 可 以 在 不 影响 程序 其 
他 部 分 的 情况 下 调试 它 ， 你 可 以 忽略 -个 总 体操 作 并 观察 将 发 生 什 么 。 


如 果 -个 程序 有 几 个 分 支 结构 . 你 可 能 会 发 现 输 和 人 行 是 通过 一 个 分 支 传递 的 。 测 试 
输 人 到 达 程 序 的 哪 部 分 。 俩 如 ， 对 二 第 十 一 章 “ 综 合 应 用 ”中 和 将 要 介绍 的 
imasterindex 程 译 ， 当 对 它 进 行 调 试 时 ,我 们 想 知 道 包 含 单词 “retrieving” 的 条 自 
在 程序 的 特定 部 分 是 否 被 处 理 。 将 下 面 的 行 插 人 到 我 们 认为 它 在 程序 中 应 该 出 现 的 
地 方 : 





并 【有 口 -7Te-EIGVinGA TILEL "> TELTieEvinS" > "AdevwyEty 
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当 运 行 穆 序 时 ， 如 于 它 遇 到 字符 串 “retrieving "， 将 打印 -个 信息 。( “>>” 是 作 
为 -对 字符 来 用 的 ， 用 来 立即 引起 对 输出 的 福 意 ; “1 ”也 是 一 个 很 好 的 标志 。 ) 


有 针 你 可 能 不 知道 是 哪个 Print 语句 引起 的 问题 - 可 以 在 Print 语 铅 中 搬 人 标识 符 ， 
以 提交 执 行 了 哪个 print 语 和 铝 。 在 下 面 的 例子 中 ， 我们 只 简单 地 使 用 变量 名 作为 标 
稚 来 说 刊 打印 了 什么 : 
TPRTMARYI 
PILE 4 >=FRINMasY:"，PRIMARY) 
局] 5 名 
IE 【SECONDaRYY》 
DTIn 1 >23ECONDRET- SECONDARY) 
已 上 只 全 
责 TinL 臣民 了 工 贞 眼 Y ”可 下 月 山 工 员 有 宇和 


这 项 技术 也 被 用 来 检查 程序 的 莫 个 部 分 究竟 是 否 被 执行 。 修 改 程序 就 像 居 重 新 装修 
一 个 家 : 在 这 时 增加 一 个 房间 , 在 那里 拆 掉 : 谋 增 。 试 图 理解 这 些 基 本 结构 可 能 是 
图 蕉 的 。 你 可 能 想 知道 是 代 每 个 部 分 部 是 需要 的 或 它们 确实 被 执行 。 


如 果 :个 awk 程序 是 儿 个 积 序 的 :个 管道 的 -部 分 , 甚至 是 其 他 的 awk 程序 的 :部 
分 ， 你 可 以 用 tee 命令 将 输出 重 定向 到 :个 文件 ， 同 时 也 和 将 输出 用 管道 传递 给 下 一 
个 命令 。 例如 , 参见 在 第 十 一 章 中 的 maaterindex 程序 ,运行 该 程 序 的 shell 脚 本 如 
下 : 
SINDEXDJRY input .ioqx SFI22S | 
SOrE -b6f -t: "0 -1 -1 -2 43 -4+2n -3n | unid 
SNDEXDz7SAPagemums idx 上 tee Pagec.tmp | 


SNDEXDIRAeemkine ai3xk | 
TINDE 共 DTIREEDTTrat 。 工 GX 





通过 内 加 “tee page.tmp"， 我 们 能 够 将 pagenums.idx 程序 的 输出 结果 捕获 到 文件 
Page.tzmpp 中 。 相 同 的 输出 道 过 管道 输送 到 eombine.idx。 


利用 注释 排除 干扰 


另 “个 简单 的 技术 是 注释 掉 :系列 可 能 引起 问题 的 行 , 看 它们 是 次 真 的 有 问题 。 这 
里 建议 使 用 连续 的 两 个 字符 符号 ， 例 如 ，* ## 台 ”来 临时 注 三 掉 这 些 行 。 这 样 在 后 续 
的 编辑 中 就 能 六 意 到 它们 , 并 做 相应 的 处 理 。 也 便于 将 这 些 注 轰 符号 去 掉 并 用 一 个 
编辑 命令 来 恢复 这 些 行 ， 而 不 肥 王 影响 穆 序 的 注释 。 
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和 LIUPa- 3 


PT LUB” 


这 时 将 条 件 注释 扯 ， 使 得 print 语句 能 够 无 菜 件 地 被 执行 。 


Slash and burn 


当 所 有 的 方法 部 失败 时 ,可 以 使 用 编 埋 蔡 来 删除 命令 或 山 除 部 分 程序 喜 到 错 训 消失 。 
当然 ， 览 胡 程序 人知 个 尝 份 并 在 临时 备份 上 制 除 行 。 这 是 “个 非常 和 拙 的 技术 ， 半 
是 在 全 部 所 弃 或 重新 其 头 开始 之 前 一 个 有 效 的 少 法 。 丰 时 当 仅 有 的 千 果 是 核心 程序 
中 断 时 、 这 总 惟 “可 以 用 来 查找 出 遇 什 么 向 题 的 方法 。 其 思路 也 是 相同 的 ,也 是 将 
可 能 二 起 问题 的 部 分 外 立 出 来 。 例 如 ， 胜 除 -个 国 数 或 far 循环 ， 看 它 是 否 是 引起 
问题 的 原因 。 人 博信 酬 除 的 是 完整 的 单元 .例如 ,大 括号 之 间 的 所 有 语句 及 相应 的 大 
括号 。 如 果 门 题 仍然 大 在 《程序 仍然 中 断 )， 那么 期 除 程序 的 另 一 部 分 。 你 迟早 会 发 
现 引起 问题 的 那 部 分 代码 。 


可 以 用 “slash and burn” 来 了 解 程序 是 如 何 工作 的 。 首 先 ， 使 用 样机 和 输入 运行 原 
娩 程序 ,并 保 在 输出 。 估 你 不 理解 的 那 哩 分 标 序 代码 开始 进行 丽 除 ,然后 在 样本 输 
人 了 运行 修改 过 前 程序 并 和 穆 始 的 输出 相 比 较 ， 看 发 生 了 什么 变化 。 


为 脚本 设置 防御 措施 

各 种 类 型 的 输入 错误 和 不 - 致 会 使 脚本 的 运行 出 现 问题 , 你 可 能 会 认为 用 户 错误 不 
应 被 认为 是 程序 问题 。 因 此 ， “个 好 的 建议 就 是 将 你 的 核心 程序 用 “防御 ”过 程 包 
围 起 来 ， 以 俘获 不 “ 致 的 输入 记录 和 防 正 程序 的 意外 失败 。 例 如 ， 你 可 能 起 在 处 理 
每 个 记录 前 对 它 进 行 验证 ,确保 存在 正确 的 字段 数 或 指定 字段 具有 所 希望 的 数据 关 
型， 


另 - -信和 防御 技术 有 关 的 方面 是 错误 处 理 。 换 句 话 说 就 是 一 由 程 庆 检 测 到 错误 时 
你 希望 发 年 什么 ? 在 基 些 情 训 下 可 以 使 程序 继续 运行 , 在 另外 - 些 情况 下 可 以 使 穆 
序 打 印 出 错 信 息 和 7 或 使 程序 终止 。 


要 认 训 到 awk 脚本 通常 具 限定 在 因 定 领域 , 程序 主要 是 要 解决 某 个 特定 的 问题 而 不 
是 解决 许多 不 同 用 户 示 到 的 一 系列 问题 ， 因 为 这 些 程序 的 这 种 特点 , 要 求 它 们 具有 
专业 的 质量 是 没有 必要 的 。 因 此 , 编写 100 雹 的 用 户 时 程序 是 没有 必要 的 。 方面， 
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防御 程序 是 很 耗费 时 间 和 和 号 味 的 。 另 一 方面 , 作为 业 祭 的 编程 人 员 ， 我 们 可 以 自由 
地 按 我 们 希 刻 的 实 萝 方 式 编写 程序 ; 作为 -个 基业 的 编程 人 员 别 必须 接客 户 的 要 求 
来 编写 。 简单 地 说 ， 如果 你 是 为 别人 编写 械 序 , 在 车 虑 如 向 完成 程序 之 前 应 先 蕉 虚 
它 将 被 用 来 化 什么 以 及 用 户 将 会 遇 到 什么 问题 .否则 , 了解 脚本 工作 的 实际 情况 ( 即 
使 是 很 小 的 设置 蒜 境 ) 就 是 能 了 而 且 有 时 间 处 理 它 。 


约束 

在 任何 as 上 实现 中 都 有 固定 的 约束 。 惟 的 麻烦 是 它们 的 文档 很 少 介绍 它们 。 表 10- 
1 列 出 了 在 《The 和 WK Programming Language》 中 描述 的 约 课 。 这 些 是 特定 实 现 
荆 具 的 约束 ， 忆 对 天 多 数 系统 孝 是 “个 好 的 参考 值 。 








表 10-1: 约束 

项 目 _ 约 东 
每 个 记录 中 字段 的 个 数 100 
每 个 输入 记 承 的 宁 符 个 数 3000 
簿 个 输出 记录 的 字符 个 数 3000 
每 个 字段 的 符 个 数 1024 
每 个 printf 字符 冲 的 字符 个 数 3000 
字面 字符 坤 中 的 字符 个 数 400 
字符 类 中 的 字符 个 数 400 
打开 的 文件 数 15 
打开 的 管道 数 加 | 1 














注意 : 和 表 10-1 中 的 数据 不 同 的 是 ， 经 验 者 明 大 多 数 awk 区 许 打 开 的 管道 数 大 于 1。 





对 于 数 值 型 数据 项 ,awk 使 用 双 精 度 型 , 浮 点 型 数据 的 氏 度 限制 由 机 器 的 结构 决定 。 


超过 这 些 约束 将 使 脚本 产生 无 法 预 负 的 问题 .在 编写 本 书 的 第 一 版 的 例子 中 , Dale 
认为 他 应 编写 “个 查询 程序 , 用 于 在 - 段 中 杏 询 一 个 单词 或 一 个 单词 序列 。 思 路 是 
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将 文档 作为 :系列 多 行 记 杂 来 读 反 ,如果 记 求 中 的 字段 包含 了 要 查找 的 项 , 则 打印 
这 个 记录 ,也 就 天 一 段 。 这 个 坟 法 可 用 来 查询 用 空 行 作为 段 的 分 恤 的 邮件 文件 。 这 
个 程序 对 小 的 副 试 玄 件 起 作用 。 但 是 ,在 处 昌 大 的 文件 时 ,程序 产生 了 中 断 ,， 因为 
程序 过 到 了 :个 超过 答 入 记 法 时 大 值 3000 个 字符 的 段 (实际 上 , 文件 中 包含 一 个 内 
置 的 邮件 情 电 ， 其 中 空 行 以 “> ”为 前 狠 )。 因 此 ， 当 读 人 多 行 作 为 “个 记 于 时 ， 获 
确保 记 居 的 长 庆 没 有 超过 3000 个 字符 。 另外. 将 流 有 特殊 的 出错 信息 来 提示 你 当前 
记 寻 的 长 度 问 题 ， 





幸 千 的 是 Bawk 和 mawk (参阅 第 十 一 章 “awk 的 系列 产品 ”) 没有 那么 小 的 限制 , 侈 
如 ，gawk 中 一 个 记录 中 的 字段 数目 最 太 不 可 超过 Ionmg 类 型 所 能 表示 的 范围 ， 当 然 
记录 可 以 比 3000 个 字符 长 。 这 些 版 本 亡 许 打开 更 多 的 文件 和 管道 。 





Bell Labs awk 的 当前 版 本 有 了 遇 个 选项 : -mrN 和 -mr 交 ， 用 于 设置 字段 的 最 天数 和 
命令 行 中 记 天 的 最 大 用 度 ， 作 为 避 开 默认 限制 的 应 和 急 办 法 。 


(sed 实现 也 有 它 的 限制 ,这些 没 有 在 文档 中 说 明 。 实践 表明 ， 大 名 数 UNIX 版 本 的 
sed 对 替换 (s) 命令 数 的 限制 是 99 或 100.。) 


使 用 如 语法 调用 awk 

“ 汰 ?司法 是 从 shell 脚本 中 调用 awk 的 可 选 的 语 基 . 它 的 优点 是 你 可 以 在 shell 脚本 
的 命令 行 中 指定 awk 的 参数 和 文件 名 。"#! 证 医 可 以 用 在 现代 UN 系统 中 , 但 在 
老 的 System Y 系统 中 没有 发 现 。 运 用 这 个 请 半 的 最 好 六 技 是 将 下 面 一 行 作为 shell 
月 本 的 第 - - 行 【 证 吾 }: 


上 1 7Pine awk - 工 


“ 考 六 后面 跟 的 是 所 用 的 awk 所 在 的 路 径 名 , 然后 是 -选项 . 在 这 一 行 之 后 ,你 可 以 
写 awk 脚本: 


4+4!7Dblnrawk -上 
{ Przirt S1L } 


往日: 注 唐 所 使 用 的 路 径 名 依 厢 于 系统 。 
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注意 . 肚 林 周围 不 必 使 用 引号 . 在 第 一 行 后 面 的 所 有 行 都 能 够 像 在 单独 的 靶 木 文件 
中 “- 样 被 执行 





儿 年 以 前 ， 关 十 在 网 络 上 如 何 使 用 “#I” 语 法 的 讨论 阐明 了 它 是 如 何 工 作 的 .这 个 
讨论 是 由 4.2BSD 用 户 发 现下 面 shell 脚本 的 执行 失败 而 引起 的 ; 


直上 7 癌 1 站， a 上 
1 BRYinr SL > 


而 下 面 的 这 个 脚 林 能 工作 ， 


# 上 ,LT 2 
7 Pinrawk :1 PIInC 5 1， 


我 们 看 到 的 这 摧 个 情况 是 由 Chris Terek 和 Guy Harris 发 现 的 ， 我 们 将 概 揪 介绍 他 
们 的 解释 。 第 一 个 脚本 执行 失败 是 因为 它 将 脚本 的 文件 名 作为 第 一 个 参数 (C 中 的 
argv[1]) 传递 ,而 awk 将 它 作为 输入 文件 府 不 是 脚本 文件 解释 。 因为 没有 给 出 有 姥 本 ， 
所 以 awk 产生 个 详 靶 册 错 信息 。 换 句 话说, 如 果 shell 丢 本 的 名 字 蚌 “myscript”， 
那么 第 -个 脚本 将 接 下 面 庄 句 执行 : 


ELIn7dwR TYSCTLEDHTL 
如 果 将 程序 改 为 添加 选项， 如 下 所 示 : 


# 1 ZEineawk 一 
{f PTImL S$1L 上 


然后 输入 下 面 的 命令 : 
SmYBCLIBL mmYfi1e 
必 将 和 输入 下 面 的 诸 句 … 样 来 执行 : 


bin awk -myscTIgt mytil 








注意 : 在 “#l” 行 只 能 有 一 个 套数 - 这 行将 由 UNIX 内 楼 米 处 理 ， 而 不 是 由 shell 处理， 因此 不 
能 包含 任意 shell 构件 ， 





关 f 语 让 人 许 你 创建 shetl 脚 本 , 来 将 命令 行 参 数 透明 地 传递 给 awk. 换 句 话说 , 你 
可 以 通过 幸 用 shell 脚本 的 命令 行 来 给 awk 传递 参数 ， 
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例如 ， 我 们 通过 改变 awk 样本 脚本 来 传递 参数 nm: 
人 PTTIn 3S1*r 


由 设 我 们 有 “个 测试 文件 ， 在 它 的 第 一 个 域 中 世 含 一 个 可 以 被 四 乘 的 数 ， 我 们 可 以 
按 下 面 所 示 方 式 调 用 这 个 得 序 : 


3 贡 hBeziDRt 蕊 = 入 Iny 守 le 


这 使 我 们 省 去 了 必须 将 “$1” 作 为 一 个 shell 变量 ， 并 在 shell 脚本 中 和 将 它 作 大 awk 
的 参数 赋 给 mn. 


第 小 一 草 将 要 介绍 的 masterindex, 就 是 使 用 “#” 语法 来 调用 awk.。 如 时 你 的 系统 
不 支持 这 个 语 基 ,可 以 将 脚本 中 的 “#P 删除 , 在 整个 脚本 两 端 添加 一 对 单 引导 , 并 
用 “3$*” 来 结束 脚本 ， 这 样 就 扩展 到 shell 命令 行 的 所 有 参数 ， 





好 的 ,我 们 已 经 消 想 了 底部 抽 展 本 章 的 许多 内 容 关系 到 awk 与 UNIX 操作 系 统 的 
接口 ， 调 用 其 人 实用 工具 , 打开 和 关 河 文件， 以 及 使 有 管道。 而且， 我 们 也 介绍 了 
调试 awk 脚本 的 一 些 笨拙 的 技术 。 


我 们 已 经 滑 次 了 awk 程序 设计 语言 的 所 有 蕊 能 。 我 们 集中 介绍 了 awk 的 POSIX 规 
范 ， 偶 尔 提 了 - - 些 awk 实 用 工具 . 在 下 --- 章 将 介绍 不 同 的 awk 版 本 之 间 的 区 别 , 第 
二 一 章 介 绍 随 个 大 布 复 杂 的 应用 程序 : 文档 拼写 检查 程序 和 索引 程序 .第 十 三 章 * 脚 
本 的 汇总 ”给 出 了 许多 用 户 提供 的 程序 ， 提 供 了 如 何 编号 程序 的 补充 例子 。 





第 十 一 章 
awk 的 系列 产品 





在 前 面 的 四 台 中 , 我 们 主要 讨论 了 PDSIX awk, 偶尔 介绍 了 一 些 可 能 适 行 的 实际 的 
awk 实现 .在 林 章 中 ,我们 将 重点 讨论 可 月 的 不 同 awk 版 本 ， 即 它们 具有 或 不 具有 
邮 些 荔 能 ， 以 及 如 何 得 到 它们 ， 





首先 ， 我 们 将 讨论 awk 原始 的 Y7 版 本 。awk 原始 版 本 中 缺少 很 多 我 们 已 经 介绍 过 
的 功能 , 因此 这 “ 节 主 要 介绍 它 投 有 的 那些 功能 . 其 次 , 我 们 还 将 介绍 3 个 版 本 ,这 
些 版 本 的 源 代 码 是 可 以 免费 使 用 的 。 所 有 的 这 些 已 经 扩展 为 POSIX 标 准 . 先 从 讨论 
3 个 版 本 的 共同 特点 开始 ， 最后， 我 们 来 讨论 awk 的 3 个 商业 版 。 


原始 的 awk 


在 下 面 的 每 节 中 ， 我 们 将 对 原始 awk 与 POSIX awk 之 问 的 区 唱和 做 科 单 的 描述 。 几 
年 来 ，UNIX 销售 商 们 已 经 增强 了 他 们 的 原始 的 awk 版 本 ， 你 只 需要 编写 -个 小 的 
测试 程序 来 检测 老 的 awk 有 什么 茂 能 或 没有 什么 功能 。 


转 义 序列 


在 原始 的 V7 awk 中 只 有 “av ， 和“ 。 大 多 数 UNIX 销售 商旅 所 了 
“Ab”，“r"， 和 “\f” 中 的 部 分 或 全 部 。 
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[二 





求 里 


在 老 版 本 的 awk 中 没有 求 莽 【 使 用 ^、“=、** 和 **= 操作 符 ) 计算 。 


C 请 言 的 条 件 表达 式 


在 CC 语音 中 ， 一 元 条 件 表 达 式 “expri 7， expr expr3” 了 中 有 在 老 版 本 的 awk 中 出 
现 。 你 必须 求助 下 普通 的 证 -else 语句。 


将 变量 值 作 为 布尔 模式 
不 能 将 -个 变 雏 的 值 作 为 布尔 模式 。 
fl1ag ”Piirr .上 


而 必须 用 一 个 比较 表达 虑 来 代替。 


于 La -DTprinr ”上 
伪 动 态 正则 表达 式 


在 原 冯 的 awk 中 很 准 动态 地 使 用 模式 ,因为 当 解 释 脚 本 时 它们 必须 是 固定 的 。 对 于 
不 能 使 再 变 量 作 为 正则 表达 式 这 一 问题 , 下 以 通过 将 一 个 shell 变 量 输 人 到 awk 程序 
中 来 解决 。shell 变量 的 值 将 被 awk 解释 为 一 个 常量 。 下 面 是 一 个 二 子 : 

有 芋 3wKZ 2 

旧 17bPinysh 

丰 给 awk search 变 呈 缸 苔 shel1 的 $: 


号 忆 让 CD = 与] 
WwWK “7] ”上 SSTenryr anrCmnymgs 


这 个 脚本 的 第 一 行 在 调 甩 awk 之 前 定义 了 一 个 变量 。 为 了 使 shell 可 以 识 遇 awk 变 
草 ， 我 们 先 用 单 引 号 ， 再 用 双 引 号 包围 它 【 注 1)。 因 此 ，awK 看 不 到 shell 变 量 并 将 
它 作为 字符 串 常 晤 来 处 理 ， 





莹 1: 实际 上 ， 这 隶 单 引号 引 住 的 广 剖 和 想 引 号 引 住 的 广东 ， 以 用 更 多 的 音 引 号 引 挂 的 文 
本 ， 来 产生 更 大 的 引用 文本 的 级 联 ， 这 种 技巧 意 虽 关 章 已 经 使 用 过 了 。 


3WK 的 系 列 产 品 _ 四 285 





直面 切 使 用 Bournec shell 变 所 赫 换 巧 能 的 呈 -个 二 例 。 合 用 这 一 功能 ， 我 们 可 以 很 
容易 地 为 变 若 指 室 默 认 值 ， 如 果 用 户 没 有 给 出 命令 行 参数 。 

中 忆 总 忆 CH 一 六 1 

虽 WY rmyms 
表达 式 “$fseareh:-*) ”告诉 shell 如 果 search 有 定义 则 使 用 search 的 值 ; 如 果 汶 有 
定 勾 ,就 出“.*” 的 值 - 这 里 ,“.*” 是 正则 表达 式 语 让 用 于 指定 任意 字符 组 成 的 
字符 串 ; 因此 ， 如 果 在 命令 行 投 有 给 出 参数 ， 将 打印 所 有 的 记录 。 因 为 整个 模式 都 
包含 存 观 引 号 中 ，shell 不 执行 通配符 表达 式 “.*"。 


控制 流 


在 POSTIX awk 中 , 如果 一 个 程序 只 有 一 个 BEGIN 过 程 , 并 且 役 有 其 他 的 过 程 ,awk 
将 在 执行 完 访 过 程 后 退出 。 原 始 的 awk 则 布 问 ， 它 将 执行 BEGIN 过 程 ， 然 后 继续 
处 习 输 入 , 即使 没有 模式 处 理 语 句 。 可 以 在 命令 行 中 给 出 Maev 各 辐 作 为 一 个 数据 文 
件 参 数 ， 或 使 用 ex 让 来 强制 退 册 awk。 


另外 ,如果 有 BEGIN 和 了 END 过程, 则 必须 分 别 出 现 在 程序 的 开始 处 和 志 尾 处 。 而 
且 一 考 都 只 能 出 现 一 次 。 


字段 的 分 隔 
字 虎 的 分 隔 在 老 版 本 的 awk 中 和 项 代 的 awk 中 其 工作 方式 是 一 样 的 ,除非 你 不 能 使 
用 上 则 表达 式 ， 


数组 


在 原始 的 awk 中 没有 提供 从 数组 中 删除 :个 元 素 的 方法 。 你 所 能 做 的 最 好 的 工作 就 
是 将 一 个 空 字符 串 , 赋 给 不 需要 的 数组 元 素 . 并 修改 程序 代码 以 忽 熙 数 组 中 慎 为 空 
的 元 素 。 


间 样 ， 在 原始 的 awt 中 让 不 是 个 操作 符 ， 你 不 能 用 证 (item in array) 来 检测 某 
项 是 否 出 现在 数组 由 .不幸 的 是 ， 你 必须 循 坏 访问 数组 的 所 有 元 素来 检测 你 希望 的 
下 标 是 否 存在 。 
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Eor (item in arraywi1 


1E (Item ==- Searcmnkeyry 1 
DEFDCeSS 中 TITSYTTESR 
了 工 己 二 长 
】} 
getline 函数 


在 原 丫 的 Y7 awk 中 没有 getline 男 数 。 如 果 你 的 awk 是 老 版 本 , 则 不 能 使 用 getline 。 
某 些 销售 商 有 getline 的 最 简单 形 蕊 , 它 从 普 道 的 输入 党 中 读 取 下 一 个 记录 , 并 设置 
50、NF 和 NR《( 这 里 没有 EFNR,， 参见 下 面 的 内 容 )，getline 的 长 他 形式 都 是 不 可 用 
和 的 。 


函数 


原始 的 awk 中 只 有 有 限 的 几 个 内 中 字 符 串 霄 数 〈 和 参见 表 11-1)。 


表 11-1: 原始 的 awk 中 的 内 置 字符 曲 图 数 








awk 函数 [描述 

indexfr, 好 返回 子 帅 在 字符 串 * 中 的 位 置 ， 如 果 没 有 出 现 则 返回 0 

lengthfs》 | 返回 字符 串 * 的 长 度 ， 当 没有 给 出 字符 绅 时 返回 御 的 长 度 

Split(a, s，sep) | 使 用 字段 分 隔 符 sep 将 字符 串 y 分 解 为 数组 4 的 元 素 ， 返 回 元 素 的 
个 数 。 如 果 没 有 给 出 sep, 则 使 用 FS。 数组 分 利和 字段 分 割 采用 一 
桩 方法 

Sprintff “Pat ，expr)y | 为 expr 使 用 Printf 格 式 规 范 

Substrts, 疡 , 旋 返回 字符 串 * 中 从 位 置 户 开始 最 大 长 度 为 二 的 子 韦 。 如果 半 没有 给 
出 返 区 从 疡 开始 简 余 的 部 分 








有 些 内 衫 月 数 被 归 为 算术 国 数 .它们 大 多 输入 - -个 数值 型 参数 并 返回 一 个 数值 型 值 。 
表 11-2 概括 了 这 些 算 术 函 数 。 
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表 11-2: 原始 的 awk 中 的 内 置 荆 术 函 数 





awk 的 数 “描述 

exp(D) 返 到 e 的 :次 宕 

int(z) 返回 x 肥 整 后 的 恒 

]og(oo) 返回 zx 的 有 然 对 数 〔【 以 e 为 底 ) 
sqrtCx) 返 园 x 的 平方 根 





awk 中 最 大 的 便利 就 是 可 以 定 义 自己 的 函数 ， 但 原始 awk 没有 提供 这 一 功能 。 


内 置 变量 
原始 的 awk 中 的 内 填 变 量 显 示 在 表 11-3 中 。 


表 11-3: 原始 的 awk 中 的 系统 变量 








变量 | 提 述 

FTLRENAMEE 当前 文体 各 

FS .字段 分 陷 符 【默认 为 一 个 空格 ) 

NE | 当前 记录 中 字段 的 个 数 

OFMT 数字 的 输出 格式 【默认 为 锡 .5g ) 
OFES 输出 字段 分 隔 符 【默认 为 个 空格 ) 
ORS 输出 记 耻 分 隔 特 【时 认 为 “个 换行 符 ) 
RS | 记录 分 隔 符 【默认 为 一 个 换行 符 ) 





OFMT 有 两 个 作用 ， 即 负责 print 语句 的 格式 转换 和 将 数字 转换 为 字符 串 。 


可 免费 使 用 的 awk 


有 3 个 ae 版 本 的 谭 代 码 是 可 以 免费 使 用 的 .它们 是 Bell Labs awk、GNU awk、 
和 mawkt， 由 Michael Brennan 提供 。 这 部 分 介绍 了 它们 中 的 两 个 或 多 个 版 本 共有 
的 扩展 芭 能 ， 然 后 详细 介绍 每 个 版 本 以 及 如 何 落得 它们 。 
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共有 的 扩展 
本 节 过 沦 awxk 户 言 的 扩展 ,这 在 awk 中 的 两 个 或 多 个 免费 版 本 ( 注 2) 中 是 可 用 的 。 


删除 数组 的 所 有 元 素 
3 个 版 本 都 扩展 了 delete 话 名 ， 使 得 能 :次 删除 数组 中 的 所 有 元 素 ， 语法 为 : 


人 elete 六 六 号 7 
通常 情况 下 ， 要 从 数组 中 肚 除 每 个 元 素 ， 必 须 用 一 个 如 下 的 循 乓 : 


Fo 人 LIm OOatal) 
名人 ] ete Qaca[il 


口 e】 马 七 忆 局 三 上 到 
这 对 于 有 很 多 下 标的 数组 尤其 有 用 ， 这 种 方法 比 用 “个 循环 要 快 得 多 。 


即使 数组 中 已 经 没有 任何 元 素 , 也 不 能 将 数组 名 作为 一 个 简单 的 变量 名 。- -有 卫 定 这 
芒 数 组 就 永远 是 一 个 数组 。 


这 :扩展 首先 出 现在 gawk 中 ， 状 后 出 现在 mawk 和 Bell Labs awk 中 。 


获得 单独 的 字符 


3 个 awk 都 扩展 了 字段 的 分 割 和 数组 的 分 割 。 如 果 IS 的 值 是 一 个 空 字符 串 , 那么 输 
入 记录 的 每 个 字符 都 变 成 为 一 个 单独 的 字段 , 这 大 大 地 简化 需要 处 理 单独 字符 的 工 
作 ， 


类 似 地 ， 如 果 国 数 splitO 的 第 三 个 参数 是 空 字符 串 , 在 原始 字符 串 中 的 每 个 字符 将 
咸 为 目标 数组 的 一 个 单独 的 元 素 。 


如 果 没 有 这 些 扩 展 ， 则 必须 重复 调用 substr0) 国 数 来 获取 每 一 个 字符 。 





注 2: 作为 gawk 的 维护 人 员 和 在 这 里 以 及 在 后 面 一 节 中 有 关 Bawk 的 诗 儿 扩展 的 措 述 前 作 
者 ,我 对 这 基 扩 蝴 的 有 起 性 的 看 法 也 计 有 仿 见 。 你 应 该 有 自己 的 评价 。[ 生 ,R.] ) 
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和 这些 扩展 首先 出 现在 mawk 中 ， 然 后 出 现在 gawk 和 了 BellLabs awk 中 。 


刷新 被 缓存 的 输出 

Bell Labs awk 的 1993 年 版 本 介绍 了 -个 POSIX 标 准 中 没有 的 新 的 乓 数 ，fmuslht) 
和 elose 人 一 样 ，ffliushO 的 参数 是 -个 打开 的 文件 名 或 一 个 管道 。 和 close0) 不 同 的 
是 ，fflushtO 国 数 代 对 和 输出 文件 和 管道 有 效 。 


大 多 数 程 序 对 输出 进行 缓存 , 在 内 存 块 中 保存 将 扰 写 人 文件 或 管道 的 数据 ,直到 有 
是 饮 多 的 数据 后 才 将 它们 输 诺 到 日 的 地 。 有 了 时 , 程序 员 能 够 显 式 地 刷新 输出 缓 神 区 
是 很 有 用 的 ， 也 就 是 说 ， 强 制 地 传递 缓 钟 器 中 所 有 居 缓 存 的 数据 。 这 也 是 国 数 
fflush 交 的 日 的 。 





这 个 轩 数 首先 出 现在 了 Bell Labs awk 中 ， 然 后 出 现在 gawk 和 mawk 中 。 


特殊 文件 名 
对 于 任意 版 本 的 awk, 都 能 直 搂 向 CNIX 特 跌 文 件 /tewtrzy 中 写 人 数据 , 这 是 用 户 终 
计 的 名 字 。 当 程序 的 输出 直接 写 人 -个 文件 时 ,这 可 以 用 来 提示 或 通知 用 户 的 注意 。 


Drinmnet “Enter YeuUI name: >"raevALty" 


这 将 “Enter your name;” 直 接 输出 到 屏 莫 上， 不管 标 准 输出 和 标准 错误 被 定向 到 
哪里 ， 


在 表 11.4 列 出 的 是 了 个 版 本 awk 中 都 支持 的 特殊 文件 名 。 


示 11-4: 特殊 文件 名 

文件 名 | 描述 

dew3tg 有 | 标准 输入 (maw 中 没有 )* 

jaevwsrdomd | 标 叭 输出 

Laewsrderr 标准 错误 加 

a， tmawk 帮助 页 建议 使 用 “-” 表 示 标 准 输 入 ， 这 是 很 方便 的 。 








注意 ， 和 其 他 文件 名 样 ， 当 桂 殊 文 件 名 被 指定 为 字符 串 常 量 时 必须 用 引号 包围 。 
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特殊 文件 jaevAstain、padevwstdotf 和 Adewsrderr 来 源 于 Y8 UNIX。 这 些 特 殊 文 件 在 
Eawk 中 首先 获得 认可 ， 然 后 是 在 mawk 和 Bell Labs awk 中 获得 认可 ， 





Printerr 人 函数 
名 示 给 用 户 的 出 错 信 息 经 常 是 因为 泛 掉 输入 或 错误 的 输入 。 你 可 以 科 单 用 
Print 语 沿 来 提示 用 户 。 查 是 ， 如 果 程 序 的 输出 祯 和 醒 定 向 到 一 个 文件 中 ， 用 户 
将 看 不 到 打印 结果 。 固 此， 一 个 好 的 办 法 是 明确 指出 将 出 轿 们 息 送 到 终端 。 


下 面 的 PrinterrO 示 数 用 于 帮助 创建 一 致 的 用 户 出 错 信 息 。 它 打印 一 个 单词 
“ERROR”" ， 后 跟 有 一 个 给 出 的 管 息 、 记 录 妨 号 和 当前 记录 。 下 面 的 例子 直接 
输出 到 AdewAgty: 
funcrion Printerr 【rmeSSaC 让 各 1 
# 打印 消息 证 录 绝 避 以 及 记录 
Printe1 ERROR:SS 18q $Sn message，NR，50) > yaewrhey， 
了 
如果 程序 的 输出 直接 被 讶 到 终端 屏幕 ,那么 出 错 信息 将 和 输出 混合 在 一 起 。 输 
出 “ERROR” 可 以 帮助 用 户 识别 出 出 错 信 息 。 


在 UNIX 中 ,出 错 售 息 的 标准 目的 她 旭 标 准 错误 文 谷 。 和 将 出 氏 信 息 写 入 标准 鱼 
误 的 基本 原理 和 上 面 一 样 . 要 显 式 她 指 定 标准 错误 的 输出 ,必须 像 下 面 的 例子 
那样 使 用 “cat 1> 上 2” 语 洁 : 


DFIiIL "ERRCR， | "eakc 1>&2， 


这 人 外 例子 直 贸 将 Print 语 向 的 输出 传递 给 一 个 执行 cat 命令 的 和 道 。 你 岂可 以 
用 Systemf(y 函 数 来 狼 行 一 个 UNIX 命令 ， 例 如 ，eat 或 echo，- 并 直 科 将 它 的 办 
出 圭 票 送 到 标准 错误 文件 。 


当 特 殊 文 件 aevrtelerr 能 用 时 ， 这 将 鹿 得 很 简单 : 








PITImE ' ERROR'， > "yqevystdqerr" 上 公用 上 awk 的 基 新 版 








nextfile 语句 ， 
nextfile 语句 和 mext 请 句 类 似 ， 但 它 是 更 高 层次 上 的 操作 。 当 机 行 nextfile 时 ， 当 
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前 的 数据 文件 将 被 放弃 ,操作 从 脚本 的 顶端 开始 ,并 使 用 下 一 个 文件 的 第 “个 记录 。 
当 你 只 需要 处 理 文 忻 的 一 部 分 时 ,， 这 臣 很 有 用 的 , 这 里 涉 需 要 创建 一 个 循环 并 使 用 
mext 中 过 某 些 记录 . 


nextfile 语句 来 源 三 Eawk， 然 后 让 语 印 到 Bell Labs awk 和 mawk 中 。 在 mawk 的 
1.4 版 本 中 这 个 语句 开始 可 用 。 


正则 表达 式 的 记录 分 隔 符 (gawk 和 mawk) 

gawk 和 mawk 齐 许 RS 是 一 个 完全 的 正则 表达 式 ， 而 不仅 仅 是 单个 字符 。 在 这 种 情 
况 下 ,记录 被 输入 中 与 正则 表 运 式 匹 配 的 最 长 文本 分 隔 。gawk 也 将 RT( 记 录 终 止 
符 } 设置 为 实际 与 及 S 匹配 的 输 和 文本。 在 下 面 给 出 了 一 个 例子 。 


将 及 $ 作为 止 则 表达 式 的 性 能 首先 出 现在 mawk 中 ， 并 随后 被 汝 加 到 gawk 中 。 


Bell Labs awk 


Bell Labs av 是 原始 的 V7 awk 的 直属 后 代 ， 这 个 “新 的 ”awk 首先 应 用 在 System 
Y 3.1 版 本 中 。 洗 的 可 免费 使 用 的 疗 代 码 可 以 通过 匿名 FTP (文件 传送 协议 ) 从 主 
机 megiippeEPeps.com 下 载 。 位 于 文件 各 elbpresearcehawk bandre.Z 中 。 这 是 一 个 
压缩 的 she 档案 库 文 件 。 确保 使 用 “二 进 制 ”或 “图 像 ”模式 来 传输 这 个 文件 。 这 
个 版 本 的 awk 需要 -个 ANSIC 编译 路 。 


这 里 偿 有 几 个 不 同 的 版 本 ， 我 们 将 根据 它们 在 哪 - -年 可 用 来 识别 它们 。 


新 awk 的 第 一 个 版 本 在 1987 以 后 可 以 使 用 。 它 几乎 包含 了 我 们 在 前 面 四 音 中 介绍 的 
所 有 内 容 【 尽 管 有 些 脚注 注 明 了 一 些 是 不 可 用 的 )。 这 个 版 本 一 直 在 SunOS 4.1.x 系 
统 和 System YV 第 三 版 UNIKX 系统 上 使 用 。 


在 1989 年 ，System V 第 四 版 增 遍 了 一 些 新 的 内 容 。 这 个 版 本 和 POSIX awk 之 问 
的 惟一 区 别 , 是 POSIX 使 用 CONVYFMT 实现 数据 到 字符 申 的 转换 , 而 1989 的 版 本 
用 的 是 DEFMT。 新 的 功能 有 : 

*。 在 命令 行 赋值 的 转 义 字符 现在 可 以 解释 。 

。 ”添加 了 tolower( 和 toupperO 攻 数 。 
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。， 改进 了 printft， 增 加 了 动态 宽 诬 和 提高 了 精度 ,“%e” 的 作用 被 合理 化 。 

。 函数 srand() 的 返回 值 被 定义 为 前 “个 种 子 数 。(awk 所 中 没有 陈述 srand0 返 
癌 的 古 什么 。) 

。 ”将 正则 皮 达 式 作为 简单 的 表达 式 成 为 可 能 。 例 如 


IT Teusee | seet 
DLL Do-emrz1la Derel' 


*。 增加 了 -* 选项， 允许 在 执行 BEGIN 过 程 志 前 在 命令 行 设 出 变 最 


和 可 以 使 用 多 个 -f 选 需 来 处 理 多 个 源 文 件 ( 这 首先 起 涛 于 MKS awk , 然后 被 gawk 
采用 ， 最 后 语 加 到 Bell Labs awk 中 ) 。 


。 ”增加 了 ENYIRON 数组 【这 分 别 由 MKS awk 和 gawk 两 者 独立 开发 而 来 ,的 
后 语 加 到 Bell Labs awk 中 )。 


在 1993 年 ， 贝 尔 实验 室 的 Brian Kernighan 公开 了 他 的 awk 的 源 代 码 。 在 这 时 ， 
CONYFMT 变 成 可 用 , 并 且 增 加 了 在 前 面 介绍 的 函数 fwshO。. -个 能 锁定 错误 的 
版 本 在 1994 年 8 月 发 布 。 


在 1996 年 6 月 , Brian Kernighan 发 布 了 另 -- 个 版 本 。 它 不 仅 可 以 在 前 面 给 出 的 FTP 
站 点 上 检索 到 ， 而 及 可 以 在 通过 允 丈 克 浏览 器 访问 Dr.Kernighan's Web 主页 
(tpD:Acm peii-iapscomAmpowk) 这 里 将 这 个 版 本 称 为 “一 个 真正 的 awk"”。 这 个 
版 本 增加 了 源 于 gawk 和 mawk 的 几 个 特点 ， 这 些 特 点 在 本 章 前 面 的 “共有 的 扩展 * 
一 节 介 绍 过 。 


GNU awk(gawk) 


免费 软件 机 构 的 awk 的 GNU 企 业 版 ， 即 gawk， 实 现 了 POSIX awk 中 的 所 有 特征 ， 
甚至 更 多 .。 它 也 许 是 可 免费 使 用 的 买 现 下 具 中 最 流行 的 一 个 , gawk 用 于 Linux 系 统 ， 
以 及 各 种 其 他 可 免费 使 用 的 类 似 于 UNIE 的 系统 中 ， 例 如 NetBSD 和 FreeBSD。 


gawXx 的 源 代 但 可 以 通过 连接 到 主机 疡 p.enu-org 上 的 匿 和 FTP ( 注 3) 获得 。 它 在 文 








芋 了 ; 如 采 你 不 能 使 用 Internet 却 种 望 捍 到 一 份 Bawk 的 副本 ， 可 以 联系 Free Soflware 
Foundation.Inc.,59 Temple Place, Suite 330,， Boston, MA 02111-1307 口 .S. 和 ,电话 号 
三 是 17-542-5942， 传 责 号 是 617-542-2652 。 
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件 AAA8GmA8awK- 了 D 和 tar.85 中 《【《 当 你 访问 这 个 文件 时 可 能 已 经 出 了 新 的 版 本 )。 
它 是 经 过 加 zi 程序 生 缩 过 的 tar 文件， 它 的 源 代 码 在 相同 的 日 孙 中 可 以 获得 。 世 界 
上 很 多 站 扎 都 从 GUN 发 行 站 点 上 “镜像 ”了 这 个 文件 ,如 果 有 距离 你 近 的 站 点 ,你 
可 以 从 函 里 获得 这 个 文件 。 确 保 用 “一 进 制 ” 或 “图 像 ” 模 式 来 传输 这 个 文件 。 


除了 前 而 介绍 的 共有 的 扩展 外 ，gawk 还 有 - 些 其 他 的 特点 。 下面 简单 介绍 这 些 特 





命令 行 选 项 
gawk 有 儿 个 很 在 用 的 命令 行 选 项 。 和 大 多 数 GUN 程序 - 样 , 这 些 选 项 具有 清楚 的 
说 明 ， 并 以 两 个 后 划 线 “--” 开 始 ， 


和 -ao 到 使 gawx 在 解析 时 和 衣 行 时 对 王 不 适用 于 或 不 可 移植 到 其 他 
awk 版 本 的 程序 结构 进行 检查 。--Einto 雪 选项 用 于 名 示 在 awk 的 原始 版 本 中 不 
适用 的 函数 调用 。 尼 和 --Enr 是 互相 独立 的 ， 因 为 大 多 数 系统 中 都 包含 新 awk 
的 些 版 本 。 


-taidiliondl 使 得 GUN 的 特殊 扩展 不 可 用 , 例如 时 间 胃 数 和 gensubf) 的 数 ( 参 
见 下 面 )。 使 用 这 个 选 艾 ， 可 以 使 awk 和 Beil Labs awk 具有 相同 的 工作 方式 。 
-Fre-iterrgy 道 过 使 Sawk 可 以 识别 区 闻 表 达 式 【例如 “Astufff1,3} 疡 ) 而 使 得 
党 全 的 POSIX 正则 表达 趟 匹 本 有效 。 


-posif 使 所 有 在 POSIX 标准 中 没有 指定 的 扩展 功能 不 可 用 。 这 个 选项 也 打开 
对 区 间 表 达 起 的 庚 别 功能 。 





还 有 一 些 其 他 的 选项 对 十 日 常 的 程序 设 让 和 脚本 移植 是 不 重要 的 ， 细 节 可 以 参阅 
awk 的 文档 。 


尽管 POSIX awk 克 许 使 用 -选项 来 处 理 多 个 实例 ， 但 在 命令 行程 序 中 使 用 库 图 数 
没有 简单 的 方法 。gawk 中 的 -source 选项 可 以 完成 这 -功能 。 





可 SawK --SQUTCC SCrzptr -T Jrlioe.awk filel 上 Eile2 


这 个 例子 运行 scripf 中 的 程序 ， 它 可 以 使 用 来 自 文 件 myTibsawkr 中 的 awk 数 。 葵 
人 数据 来 自 充 ez 和 .Pie2。 
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一 个 awk 程序 搜索 路 径 


gawk 侈 许 你 指定 -个 名 为 4 风 儿 PATHB 的 环境 变量 , 它 定 允 了 awk 程序 文件 的 搜索 
路 空 ， 默 认 路 笃 为 : jsrylocalsharefawk 。 因 此 ， 当 为 一 个 文件 各 指定 -了 选项 时 ， 
将 从 当前 路 径 开始 查找 这 两 个 默 兴 路 径 。 注意 ,如果 文 件 名 中 包含 一 个 “ 普 字符 将 
不 执行 查找 。 


例如 ,如 果 mmyiipsarK 昨 Zasmipcalsjarerak 中 的 -个 awk 国 数 文件 ， 而 myProg ay 类 
是 当前 日 录 下 的 一 个 程序 ， 我 们 可 以 用 于 而 的 卢 式 运行 gawk: 


可 已 WwK 二 人 Y 有 FEO 可 .FEWK 于 和 LiD.awKk acati]ee 


gawk 可 以 在 适当 的 地 方 找到 每 个 文件 。 这 使 得 建立 和 使 用 awk 库 苦 数 变 得 很 容易 。 


行 的 延续 
8awk 人 允许 使 用 ?” 或 “: ”实现 断 行 。 也 可 以 用 一 个 反 矢 杠 使 字符 串 延 续 到 新 行 中 。 





号 QwK “了 GIN ({ BELL “hello，A 
> DIE19"” 1 
人 1、 所 , wor 1 


扩展 的 正则 表达 式 


gawk 提 供 了 几 个 补充 的 正则 表 达 式 操作 符 。 这 些 对 多 数 使 用 正则 表达 式 的 GNU 程 
序 是 共有 的 。 扩 展 操作 符 列 于 表 11-5 中。 


家 11-5: gawk 的 扩展 表达 式 








特殊 操作 符 | 用 和 

ww 和 任何 可 以 做 单词 组 成 成 分 的 字符 匹配 【 字 尽 ， 数字 或 下 划 线 ) 

w 和 任何 不 能 散 单 词组 成 成 分 的 字符 匹配 

vc 和 -个 单词 开头 的 空 字符 课 正 配 

\> ! 有 有 | 个 单词 术 昨 的 空 字符 串 匹 配 

g 和 -个 单词 开头 的 空 字符 趾 或 未 尾 的 点 字符 串 匹 配 (单词 边界 ), 其 他 
GNU 软件 使 用 “\b” ,这 是 已 经 被 接受 的 

了 和 单词 内 部 的 空 字符 串 匹 配 
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表 11-5: gawk 的 扩展 表达 式 〈 续 ) 

特 冻 操作 符 | 用 途 ， 和 

和 尹 缓 冲 攻 开始 处 的 空 字符 出 下 配 。 这 和 在 awk 中 的 字符 串 是 一 幸 的 ， 
央 此 和 * 作 用 相同 。 它 用 二 与 GNU Emacs 和 东 他 各 NU 软件 保持 交 容 


7 和 组 神 扩 本 尾 处 的 堂 字符 昌 匹 配 。 这 和 在 awk 中 的 字符 串 是 样 的 ,内 
:此 和 $$ 作 用 相同 。 必用 于 与 GNU Emacs 和 其 他 GNU 软件 保持 兼容 

















Sb 














你 可 以 将 “ww ”作为 【POSIX+ 符号 [faImam:] 开 的 -个 简写 ， 而 将 “wwW” 作为 
[*[salnumi_] 的 简写 。 下 面 的 表 中 给 出 了 与 中 加 4 个 操作 符 瞻 配 的 例子 ， 这 是 从 
《Effecive 各 WWK Progratmmingy 中 借用 的 。 


表 11-6: gawk 扩 展 正 由 表达 式 示 例 























表达 式 匹配 的 例子 | 不 匹配 的 例子 
Way 有 有 Way 8 人 攻 昌 多 昌 y 

StOWA> SS[ 癌 中 Stowaway 
balls?y ba]l or Ba]]s ballroom Dr baseball 
下 ratVB _ | czate 加 dirty fat 

正则 表达 式 记录 终止 符 


除了 RS 是 - -个 止 则 表达 式 外 ,ga 将 变 基 RT (记录 终止 符 ) 设 壮 为 与 RS 的 值 匹 
配 的 实际 输入 文本 。 


下 面 是 米 白 Michael Breanan 的 -个 简单 的 例子 ， 显 示 了 gawk 中 的 RS 和 其 T 变 旦 
的 功能 . 就 像 我 们 所 看 到 的 .sed 的 -个 最 普遍 的 应 用 是 它 的 替代 命令 (%oldinew/g)。 
通过 将 RS 设 辣 为 要 匹配 的 模式 ,并 将 DRS 设 置 为 蔡 代 文本 , 合用 一 个 简单 的 print 
语句 就 能 够 原样 打 纯 替换 后 的 文本 。 


号 呈 LIB1Sea .awk 


f 5implesea.pws --- 有 具 用 bz2nt 完 成 sbldynewzg 
症 下 前 inas- sennar 提供 的 皮 邦 


阁 
# 介意 55 和 Drs 必须 在 命令 行 被 设 学 
了 
| 
PE "有 3 
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名 工作 
已 


这 里 有 “个 技 与 ,在 文件 的 末尾 RT 将 是 空 的 ， 因 此 我 们 用 prin 弛 语句 打印 这 个 忆 
录 【和 注 41。 我 们 可 以 按 下 面 方式 运行 这 个 程 主 。 

汪 Cat 苇 iTOED 了 号 曰 已 巡 . 避让 十 

"Thig DDPD house"” is 日 great Show 

工 iLKe ShopBjngS 0 口 ] FEhings ac 妆 aratg 扬 Sa_ES. 

汪 妆 Bawk -上 吕 imD1 3ed .wk RS="eoldaioLDr 和 及 筷 = " 卫 工 号 本 RGBW"” 日 寺 站 工 外 母性 局。 问 忆 七 己 


"ha DTIand new hcuse" is 总 greakr Show 
工 工 L 其 呈 号 OPBRIED 全 上 DT Prang mew -hings at SaTao 台 SaLeS， 


分 隔 字段 


除了 awk 友 许 你 用 常规 的 方式 将 输入 分 隔 成 记录 并 将 记录 分 隔 成 字段 外 ,gawk 还 提 
供 的 一 些 补充 的 动能 。 














首先 , 和 上 和 面 加 到 的 “ 样 , 如 果 了 FS 的 值 为 空 字符 串 , 那么 输入 记录 的 每 个 字符 都 成 
为 一 个 独立 的 字段。 


其 次 ， 特 殊 变 基 FIELDWIDTHS 可 以 用 来 分 隔 出 现在 固定 宽度 列 中 的 数据。 这 些 
数据 可 能 或 不 可 能 由 空白 字符 来 分 陶 字 段 的 值 ， 


FIEFELDPNWIDTIHS - "5 有 号 了" 


这 里 的 记录 有 4 个 字段 : $1 有 5 个 字符 的 宽度 ，$2 有 6 个 字符 的 宽度 等 等 。 为 
FIELDWIDTHS 赋 一 个 值 将 导致 awk 开始 使 用 它 来 分 隔 字 段 。 为 FS 指定 一 个 值 
将 导致 gawk 恢复 常规 的 字段 分 隔 机 制 。 使 用 FS = FS 将 使 这 种 恢复 发 生 ， 且 不 必 
将 FS 的 值 保存 到 额外 的 变量 中 。 


当 处 理 固定 宽度 字段 的 数据 且 记 录 中 间 没 有 仔 何 分 隔 字段 的 空白 字符 时 , 或 者 当中 
间 汪 : 段 内 容 余部 为 空 折 时， 这 个 功能 最 有 用 。 





证 千 : 条 阅 《Effecive AWK Programming) [Robhbins] ,16.2.8 节 ， 这 个 程序 的 精 酉 版本。 
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补充 的 特殊 文件 
gawk 有 “ 些 补充 的 特殊 文件 名 ， 它 们 在 内部 解释 。 所 有 的 特 珠 文件 各 列 在 表 11-7 
中 。 


表 11-7: gawk 的 特殊 文件 名 




















文人 撞 述 

ZaevArrdin 标准 给 人 

jevyrtadp 标准 给 出 

jaewsraderr 标 叭 错误 

HerAi 用 文件 措 述 符 半 引用 的 文件 名 _ 

废除 的 文件 名 ”描述 加 

AievA 记 返回 包含 进程 ID 导 的 记 妹 

AUewpp 刘 返回 包含 们 进程 ID 号 的 记录 

AaevApgrpig 返回 包含 进程 组 ID 号 的 记录 

jeewAaser 返回 包含 真实 有 效 的 用 户 ID 号. 真实 有 效 的 组 ID 导 , 以 及 如 果 可 以 得 
到 ， 还 包括 某 些 次 更 组 的 ID 号 的 记 际 








最 前 面 的 3 个 文件 名 在 以 前 解释 过 。 第 四 个 文件 名 用 于 访问 任何 打开 文件 描述 和 锻 ,这 
可 能 是 从 gawk 的 父 进程 【经 常 星 shell) 中 继承 的 。 你 可 以 用 文件 描述 符 和 表示 标 
准 输 入 ，! 表示 标准 输出 ，2 表示 标准 错误 。 


第 -组 标 为 “废除 的 ”特殊 文件 名 ， 存 gawk 中 站 经 出 现 了 一 段 时 间 ， 但 是 正 被 逐 
渐 淘 汰 ， 它 们 将 被 数组 PROCINFO 代替 ， 它 的 下 标 是 想得到 的 项 ， 和 而且 它 的 元 素 
值 是 相关 的 值 。 


例如 ， 我 们 可 以 用 PROCINEFO[" pid*] 得 到 当前 进程 的 JD 号 ， 而 不 是 用 getline 
pida<" /dev/pia".。 查看 gawk 的 文档 看 PROCINEFO 是 否 可 瑟 ,以 及 是 否 还 支持 这 些 
文件 名 。 


补充 变量 
gawk 偿 有 贞 个 补充 的 系统 变量 ， 它 们 列 在 表 11-8 中 。 
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表 11-8: 补充 的 gawk 系 统 变 时 





变量  ， 换 述 
和 了 民 人 INB 当前 输入 文件 的 点 RGY 中 的 索引 
ERRNDO 当 getline 成 elose 和 失败 叶 的 摘 述 错误 信息 


FIELDYWIDTHS | 用 空格 分 隔 上 鸣 数据 列表 .用 上 描述 输入 字段 的 宽 庶 
IGNORECASE 如 果林 为 0， 模 式 些 配 和 衬 符 出 比较 是 林 区 分 大 小 写 
RT | 和 RS 匹配 的 输入 文本 的 值 








我 们 已经 看 到 过 记录 终止 符 变 芥 RT， 型 在 我 们 对 没有 介绍 过 的 变 彼 进行 介绍 。 


在 awk 中 ， 所 右 的 模式 本 配 和 字符 串 比 较 都 是 区 分 大 小 写 的 。gawk 引 人 了 
IGNORECAS 玖 变量, 因此 能 将 止 则 表达 式 指定 为 不 区 分 大 小 写 。 从 gawk 3.0 版 本 
开始 可 以 做 不 多 分 大 小 写 的 字符 串 比较 。 


IGNORECASE 的 默认 情 为 0. 这 意味 着 模 此 此 配 和 字符 串 比 较 与 在 传统 的 awk 中 
执行 是 : 样 - 如 果 IGNORECASE 被 设置 为 “个 非 党 值 , 则 忽略 大 小 写 。 这 应 用 于 
所 有 可 以 用 止 则 表达 式 的 地 方 ,， 包括 字 段 分隔 符 FS， 记录 分 跨 符 RS， 以 及 所 有 的 
字符 串 比 较 。 但 对 数组 的 下 标 趟 起 作用 。 


有 两 个 有 趣 的 Bawk 变量。 和 ARGIND 被 gawk 自动 设置 为 当前 输入 文件 名 的 息 RGY 
中 的 案 引 。 这 个 变量 可 以 为 你 提供 一 个 跟踪 你 在 文件 名 列表 中 当前 位 置 的 方法 。 


最 后 ， 如 果 在 为 getline 重 定向 时 产生 错误 或 执行 eloseO 期 间 产生 错误 ，gawk 为 
ERRNO 设 置 一 个 字符 串 来 描述 这 个 错误 ,这 使 得 当 发 生 错 误 上 时 能 够 担 供 描述 错误 
的 信息 ， 


补充 函数 


gawk 有 一 -全 补充 的 字符 串 级 数 , 以 及 两 个 处 理 当前 日 期 和 时 间 的 函数 。 它们 列 在 表 
11-9 中。 
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表 11-9: gawk 的 补充 国 数 

gawk 函数 描述 _ 

gensubCrs 上 ,中 如 果 疡 是 以 虽 或 起 开 尹 的 字符 串 ， 则 对 于 在 :中 的 *， 用 * 进 
行 全 局 替换 。 天 则 , 产 是 :个 数据 : 赫 换 第 产 次 出 现 的 rr。 该 
| 因数 返回 新 值 、! 投 有 发 生变 化 。 刘 果 没有 给 出 上 ， 软 认为 轴 
SySstimef) 返回 用 秒 志 示 的 ”大 的 当前 的 时 问 ,， 初始 时 间 为 《00:00 am 
， ,Jannary ]， 19370 UTC) 














StrftimetomHat imaestanp) | 依照 和 mnt 格式 化 intestempf 和 syttimme0 返 回 的 形式 相同 )。 
如果 得 有 呈 mestantp ， 则 使 用 当前 时 间 。 如 果 也 没有 ranaar， 
用 默认 格式 ， 它 的 输出 和 data 命令 的 输出 类 似 











一 个 通用 的 符 换 函数 

gawk 的 3.0 版 引入 了 :个 新 的 通用 的 声 换 汲 数 ， 命 名 为 gensup()。 畏 数 smb 亿 和 

gsupbg 右 如 下 -- 些 问题 。 

你 可 以 改变 模式 的 第 一 次 匹配 或 者 改变 模式 的 所 有 匹配 。 例如 , 没有 办 疲 仅 改 
蛮横 式 的 第 二 次 匹配 ， 而 不 改变 它 前 面 或 后 面 的 匹配 。 

。 sub0 和 gsub0 都 会 改变 实际 的 目标 字符 串 ， 这 可 能 是 不 希 望 的 。 


* 要 让 晒 数 subO 和 gsubO 忽 团 后 面 跟 有 被 匹配 的 文本 的 一 个 字面 反 斜 杠 是 不 可 
能 的 ,因为 :个 符 号 的 前 王 有 反 斜 枉 ， 它 不 能 替换 的 【证 S)。 


* 没有 办 法 获得 被 此 本 的 文本 的 - 部 分 ， 类 似 与 sed 中 的 \(.…) 结构 。 


由 于 所 有 的 这 些 原 因 ，gawk 引入 了 函数 gensub(0)。 这 个 函数 至 少 有 3 个 参数 。 第 …-- 
个 是 楼 查找 的 正则 表达 工 。 第 一 个 是 甸 换 字符 申 。 第 三 个 是 一 个 标志 , 用 于 控制 应 
该 执行 多 少 次 替换 . 第 匹 个 参数 【如 果 出 现 ) 是 要 改变 的 原始 字符 串 。 如 果 没 有 给 
出 第 四 个 参数 ， 则 使 用 当前 输入 记录 ($0)。 





这 时 的 模式 可 以 有 包含 在 图 括号 中 的 子 模式 。 例 如 ， 可 以 是 “Hpart) (one | twe | 
three) 六 , 在 在 换 字符 串 中 , 反 斜 杠 后 面 跟着 个 数字 表示 和 第 m 个子 模式 匹配 的 字 
符 串 。 








注 邱 : 在 《Effectiye 入 妈 反 Progratmiming)Rohbbins]， 12.3 节 有 富 趟 的 讨论 。 这 些 细 节 对 
于 软盘 的 核心 没有 作用 。， 


一 一 
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5 Beho Bart two | gawk '{ Print gengubtyrfparc) (one|twm|threeyr，"vA2"，- 导 "137 
十 视 尼 
这 里 的 标志 是 以 攻 或 G 并 巡 的 字符 中 ,在 这 种 情况 卜 ， 替 换 是 全 局 的 。 如 果 标 志 是 
-个 数据 ， 则 表示 饼 换 第 壮 个 匹配 的 字符 串 。 
SEChao 已 总 区 妆 盖 卫 e | Gawk '({f PT1LHt 三 enSuUbTAaA TAR， 3)》 
区 
第 由 作 参 数 是 要 改变 的 原始 字符 串 。 和 sb 和 ssub0 不 同 ， 吴 标 字 符 串 设 有 疏 变 。 
相反 、 新 的 字符 串 是 gensnb0O 的 返回 值 。 
写 避 RWKE “ 
卫 声 号 IN 1 口 1 = "hal1c，wor1Lan" 


Dew = 可 enBUbTt Ahel1Lor "Socdhye" ，1L， 避 1d) 
再 工 半 也 七 在 【<< 生 外 > ， 一 入 日 >AD 9 已] 本 ， me 对 ) 


< ， WO -中 >， “GoaPye，wcFl> 


为 程序 员 提供 的 时 间 管 理 


awk 程 译 常 用 于 处 理由 各 种 程序 产生 的 中 坊 文 件 。 通 常 ,日 志文 件 中 的 每 个 记 荡 都 
有 一 个 时 间 品 ， 表 页 这 个 记录 是 什么 时 间 产 生 的 。 为 了 简明 和 精确 , 时 间 融 是 系统 
调用 UNIX Het2) 的 返回 结果 ， 这 是 从 初始 时 间 00:00 am ,January 1.1970 UTC 
开始 的 用 秒 泰 示 的 数据 【这 个 日 期 经 党 被 作为 “新 纪元 ")。 为 了 在 gawk 中 更 容易 
地 生成 和 处 理 具 有 这 种 时 间 蕉 的 日 志文 件 记 录 , gawk 提 供 了 两 个 甸 数 , 即 systime0 
和 strftimme 人 ]。 


卫 数 systime0) 于 要 用 于 生成 号 人 日 志 记 录 中 的 时 间 巷 .例如 , 假 讽 我 们 使 用 awk 肢 
本 来 响应 对 王 W 服务 器 的 CGI 查询 。 我 们 可 以 将 所 有 的 查询 写 人 日 志文 件 。 


了 P [1 争 汪 7 争 S: 负 昌 n" ，USCLT，HosL，systime1)) >> "varrlogrcgircuerylog- 
了 
由 此 产生 的 记录 如 下 所 示 : 


总 IDO] 岂 :3DIme ,站 omBin SCm :人 也 D 了 


awk 的 系 列 产 中 加 ， _ _ 307 





使 用 strftime0O 冰 数 ( 注 6) 可 以 方便 地 将 时 间 发 转换 为 易 读 的 日 期 。 所 使 用 格式 字 
符 绅 类 似 sprintfO) 中 使 用 的 格式 字符 串 ; 包 由 文本 和 格式 说 明 组 成 ,包括 描述 日 期 
和 时 间 的 不 同 组 成 部 分 的 格式 说 明 。 

号 可 BawK “BEGIH 《 革 革 立 七“ 民 攻 工 下 七 荆 IT 耳语 人 站 于 号 淮 SEE 兴 人 3 ) 3 

TDGay 工 3 3urlcar， 人 ay 日 ， 下 局 生 三 
可 对 的 格式 描述 列表 很 长 。 可 参见 你 本 地 的 strfiimel3) 帮 助 页 , 以 及 参见 gawk 文 档 
可 以 获得 全 部 列 训 内容。 我们 候 设 的 CGI 日 点 文件 能 够 由 下 面 的 程 岩 进行 处 埋 。 

# elsorma” --- 处 如 CeGz 时 起 

# 数据 格 蕊 为 : 用 户 : 十 机 :时间 楼 
片 . 
BEGIN 1 2 -  "” :7 SUBShB = "BE" 
并 马 
# 使 数据 更 容易 理解 
USCT =- 上 7 nos = S2; time = S3 
# 保 仓 这 不 异 户 的 第 :个 contact 


1F 7 LTYLSETY hesty an st) 
fiTTSL, USeT ，heest] =- 上 ime 





# 款 计 =eoncace= 
2eUrLIUSCELI ，Rheagst] ++ 
# 伞 存 最 后 - :个 conkbacet 
] 志 SSE imesez， 所 SF] = 上 Ime 


] 


蕉 到 

END 1{ 

# 打印 结果 

下 站 【C 忆 rt 上 庆 二 1 Count 
LI 人 " 贡 Y 一 天 mm- 名 上 于 H:M" ， Ersr[contact]) 
j = SFErtLimel 全- 名 mt- 下 站 Hz， 1Last[eontaet] 
PITmnLE "名 -> 名 宁 Cimes jetweem 钙 B 二 rt 茹 Swm 

ConraecLt，Count [contactL1，1I，j 

了 

} 


第 -- 步 是 将 FS 设置 为 “:” 以 正确 地 分 隔 字 段 。 我 们 使 用 了 一 个 简 诗 的 技巧 并 设置 
下 标 分 了 栅 符 为 “@"。 所 以 这 里 的 数组 使 用 字符 串 “user@host” 为 下 标 。 


在 第 一 步 ,我 们 先 确定 是 下 是 第 一 次 看 到 这 些 用 户 。 如 果 是 { 它 们 没有 在 first 数 组 





汪 昌 : 过 个 邓 数 在 点 NSIC 中 的 同名 未 数 之 后 被 模式 化 。 
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中 ， 则 将 他 们 深 加 到 first 煞 组 中 。 并 递增 计数 器 以 表示 他 们 连接 了 多 少 伺 。 节 后 
将 这 个 记录 的 时 间 人 存 储 到 last 数 组 中 . 此 当 我 们 看 到 用 疡 的 新 的 连接 时 就 重新 改 
写 这 个 元 还 。 这 样 就 可 以 了 上， 结果 是 将 最 后 【最 近 的 ) 一 个 连接 存储 到 数组 中 。 





这 里 的 END 过 程 用 本 格式 化 数据 。 它 循环 访问 count 数组 ， 对 first 和 1ast 数组 的 
时 间 规 进行 格式 化 以 便 打 印 ， 假 设 有 包含 下 而 记录 的 日 志文 件 ， 

忆 昌 芋 YTE7 LDOSA CgwqueIyY1Lo9 

arno]larsome Qoma rm Ceonm :上 333220D07 

MBEY GODOLHE ,DOmEIm .DTrS: 号 313 5346 

日 TI 总 :GCC .总 mc. 尼 放 :着 攻 了 六 了 有 15 

TUBEY 3 Sa - 呈 Dma1T 全 TO: 站 3 和 4 和 23 

ETDDO1CGISGnIG -DID CT :3] 3 了 4598 生 


直面 是 运行 以 上 程序 得 到 的 结果 : 


上 号 WK -上 己 可 二 于 疡 革 TI 七, 立 Wk YYBT7 1g7 5 TuerY1 台 
TarwRanother .eco'rair crS -> 2 Limes between 986-03-05 123:09 and 6- 站 3-05 21:3D0 
armnc1ogasome ena neccom -> 3 -LImes Detwesn b-D05-05 14:465 anq 6-05S-05 15:29 


Michael 的 awk(mawk) 


第 二 个 可 免费 使 用 的 awk 是 mawk， 是 由 Michael Brennan 编写 的 。 这 个 程序 向 上 
莫 容 POSIX awk， 并 且 有 一 些 扩展 。 它 是 稳定 的 且 运 行 鼻 好 。mawk 的 可 免费 使 用 
的 源 代 码 可 氛 通 过 匿名 的 文件 传送 协议 【FTP) 从 站 点 .p.mwpiapeymet 下载。 位 于 
日 未 久 Ps.Brenmenaawgi. 了 31argz 中 工 当 你 访问 该 站 点 时 可 能 已 经 出 了 新 的 版 
本 。j。 这 是 一 个 gzip 程序 磊 缩 的 tar 文件 。 可 以 用 “二 进 制 ” 或 “图 像 ”模式 来 传 
输 这 个 文件 。 


fawk 的 主要 优点 是 它 的 速度 和 稳定 性 。 尽管 它 不 如 鲁 wk 功 能 多 ,. 但 它 总 是 比 gawk 
优越 【 注 了 )。 除 了 UNIX，mawk 还 可 以 运行 在 MS-DOS 下 。 


前 面 介 绍 的 共有 的 扩展 在 mawk 中 也 可 使 用 。 








证 了 7: gawKR 的 优 下 是 它 有 觅 康 太 的 功能 全 ,已 经 被 穆 植 到 更 名 的 非 UNIX 的 系 赃 上 ， 开 且 结 
出 了 更 多 的 文档 ， 
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商业 版 awk 


awk 还 有 儿 个 商业 版 。 本 闻 将 来 看 一 下 我 们 所 了解 的 “个 。 


MKS awk 


在 加 拿 大 安大略 的 请 铁 卢 的 Mortin 天 ern System(MKS)( 广 8) 将 awk 作为 MS-DOS7 
Windoms、DSI2，Windows 9 和 Windows NT 系统 中 MKS 工具 和 包 的 一 部 分 。 


MKS 版 本 实现 子 POSIX awk-。 它 有 下 时 的 扩展 : 
。 国 数 exp0、intO、logf)、sqrtO、tolower0 和 taupper0 在 没有 给 出 对 数 时 用 
$0 代 赫 。 


。 附加 函数 ord0 是 可 用 的 . 这 个 轩 数 的 参数 为 “个 字符 串 ， 返 网 参数 第 个 字 
符 的 数值 型 值 。 它 和 Pascal 中 的 同名 声 数 的 功能 类 似 . 


Thompson Autemation awkrtawk) 


Thormpson Automationm SoftWare !( 注 9) 为 MS-DOSAWindows、Windows 95， 
Windows NT 和 Solaris 提供 了 awk 的 -个 版 本 (tawk)(【 注 10)。tawk 有 几 个 很 有 
趣 抑 特点 。 第 一 ， 和 其 他 版 机 的 awk 不同， 它们 作为 解释 器 ， 而 tawk 是 作为 编译 
器 。 第 二 ,tawk 提供 了 用 awk 编写 的 面向 屏幕 的 调试 器 。 调 试 器 的 源 代 码 也 包含 在 
其 中 。 第 二 , tawk 人 允许 将 编译 后 的 程序 和 用 避 话 言 编写 的 任意 蝴 数 链接 。tawk 已 经 
在 comp-jeng'arE 新闻 组 中 得 到 热烈 的 好 评 。 





注 全: 地 址 是 .Mortice 玫 ETn SYSstefrs，1 和 5 COLITbita Street est， atefloc Ontario NM20L 
3525, Canada. 北美 昌 话 是 :1-800-265-2797 , 其 他 地 方 昌 话 蚌 : 1-519-884-2251。URL 
且 用 PT 妥 虹 .CD 


注 9 地 址 是 : Thompson Automation SoftWare, 5S616 SW Jefferson，Portland OR 97221 
U.S.A, 甘 国电 话 是 : 1-800.944-0139 ， 其 他 者 地 电话 建 : 1-503-224-1639。 


注 10: Michael Brennan 在 mamkfl) 的 帮助 页 中 指出 “各 罗氏 语言 的 实现 井 表 明 雪 为 树 序 谷 关 
时 献 包 想像力”。 


-- = rmtegeeimaetu in 一 一 
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站 -信和 POSIX awk 的 操作 类 似 的 awk 接 上 日 ， 用 于 编译 和 运行 程序 ， 然 

, 你 也 可 以 将 程序 编 详 成 -个 独立 的 可 执行 文件 ,tawk 编 译 器 实际 上 是 将 程序 编 
刘 -个 止 缩 的 中 间 形 式 。 当 运行 程序 时 , 这 一 中 间 形 式 被 链接 到 :个 执行 该 程 淳 
的 上 库 ， 凸 在 链接 期 间 将 共 他 C 例 程 组 合 到 awk 程序 中 。 














(awk 是 awk 全 抽 功 能 的 实现 。 除 了 实现 POSIX awk 【基于 新 版 的 awk) 的 巧 能 外 ， 
它 馆 用 一 些 基 本 的 方 碟 扩展 了 这 个 语言 ， 而 且 拥 有 很 多 内 轩 的 数 。 


tawk 语言 扩展 

这 部 分 给 出 了 (awk 中 的 新 功能 的 列表 。 对 它们 的 豪 整 介绍 超出 了 未 书 的 范围 .tawk 
的 文档 详细 介绍 了 这 些 功 能 ,希望 现在 你 对 awk 中 将 会 出 现 的 这 些 特征 的 价值 已 经 
比 镑 熟 秋 。 我 们 将 在 有 关 地 方 对 比 tawk 和 gawk 中 可 比较 的 功能 。 





* ”附加 的 特殊 模式 有 : INIT. BEGINEFILE 和 ENDEFILE, INIT 和 BEGIN 类 似 ， 
但 这 个 过 程 中 的 操作 比 BEGIN 过程 中 的 操作 先 执行 ( 注 11) .BEGINEILE 和 
ENDEFILE 全 你 能 够 对 每 个 文件 实施 启动 和 革 闭 操作 。 和 基于 ENR==1 的 堪 则 
不 同 ， 即 使 当 文 件 汶 空 这些 操 作 也 要 执行 。 


e 可 控制 的 正则 袁 过 式 , 你 可 以 在 正则 表 运 式 (7match me ) 中 添加 一 个 标志 ， 
米 告诉 tawk 如 何 处 埋 正 则 表达 式 。 标志 让 (Anatch mefi”) 表示 匹配 时 应 该 忽 
略 大 小 气 。 标 志 s 表示 在 匹配 时 应 和 最短 的 文本 匹配 ， 而 术 是 最 长 的 。 

*。 提供 了 :个 abortfezp 如 语 各， 类 似 于 exit， 除 非 tawk 立即 和 退出， 否则 将 绕 过 
任何 EN 了 过程 . 如 果 提供 了 参数 erpr, 则 expr 将 是 tawk 返 回 给 上 级 释 序 的 值 。 

*” ”真正 的 多 维 数组 .传统 的 awk 通过 连接 下 标的 值 ， 模 拟 多 维 数 组 ， 下 标 用 
SURSEP 的 值 来 记分 , 生成 常规 的 关联 数组 中 所 希望 的 众 一 下 标 。 为 了 与 这 个 
功能 兼容 ，tawk 提供 了 趴 境 的 多维 数组 。 


a[l][-] - "helle 
日 [1 [2 = ”weld 
For ! 4 = [1]) 


Princ [11Li1] 


多 维 数组 确保 下 标 是 惟一 的 , 而 且 当 数 组 中 元 素 的 个 数 很 多 时 ,能够 有 游 力 实 
现 更 天 的 功能 。 





注 11: 我 承认 我 并 没有 发 现 这 个 特征 的 真正 用 处 。 
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* 数组 的 自动 排 译 。 当 使 用 fortitem im array) 结 构 憩 环 处 理 数 给 中 的 每 个 元 素 
时 ，taw 必 首先 将 数组 的 下 标 排 序 , 使 得 数组 的 元 素 能 按 一 定 后 颗 主 被 访问. 你 
可 以 控制 切 否 娄 排序 , 是 按 宇 母 排 序 还 是 接 数值 排序 , 是 接 升序 还 是 按 降序 排 
序 . 间 然 这 种 排 这 会 引起 性 能 下 降 ,但 比 用 awk 代码 ,或 用 管道 将 结果 送 给 sort 
的 外 部 调用 进行 排序 的 开销 要 少 。 


* 国 数 和 变 屁 的 范围 控制 ,可 以 声明 国 数 和 变 其 在 整个 程序 中 基 全 局 的 , 在 “ 模 
块 ( 头 误 件 )” 内 明 们 局 的 ， 对 一 个 模块 米 寺 是 局 部 的 ， 或 对 一 个 因数 来 讲 是 
局 部 的 。 常规 芍 awk 只 给 出 全 局 变量 , 全 局 东 数 , 以 及 作为 局 部 变 基 的 笑 外 轴 
数 参 数 。 这 个 特征 很 好 , 它 使 得 狂 写 awk 困 数 库 很 容易 ,而 且 不 用 担心 变量 名 
与 其 他 二 数 库 或 与 用 户主 各 序 产生 冲突 。 

， 有 SS 可 以 是 “个 正则 袁 运 式 。 这 和 gawx 和 jiawk 类 似 . 然而 , 正则 表达 成 不 能 
是 多 十“ 个 字符 的 向 前 搜索 。 和 及 S 巧 本 的 文本 被 存储 在 与 sawk 中 的 变量 及 T 
业 介 的 变量 及 SME ( 记录 分 隔 符 比 配 ) 中 。 








。 ”字段 撒 述 , 而 不 是 字段 分 隔 符 。 变 星 FPAT 可 以 是 “个 描述 字段 内 容 的 止 则 朝 
达 丰 。 和 FPAT 成 功 号 配 的 连续 的 文本 成 为 字段 的 内 容 。 


*。 控制 隐 含 文件 处 理 循 环 。 变 量 4&RGI oj 以 跟踪 当前 输入 数据 文件 的 ARGY 中 
的 位 置 。 和 gawk 的 ARGIND 变量 不 同 ， 为 上 &GE 赋 -个 值 就 可 以 使 tawk 跳 
过 输 人 数据 文件 。 

昌 冉 定 兵 度 的 记 妙 。 遂 过 给 变 生 及 ECELEN 眠 值 、 就 可 以 使 tawk 读 到 周 定 长 麻 的 
记录 。 如 果 有 RS 利 RECLEN 内 的 字符 不 匹配 ， 那 么 tawk 返回 :个 记录 ， 这 个 
记 有 是 RECELEN 的 宁 答 长 度 。 

s。 十 六 进 制 的 常 台 。 在 tawk 的 程序 中 可 以 指定 C 风格 的 十 六 进 制 的 常量 
【0xDZAD 和 0xBEEE 是 两 个 典型 的 十 六 进 制 数 )。 这 有 有 助 于 使 用 内 置 的 位 处 理 
函数 【参见 后 面 的 内 容 )。 


好 了 1 这 是 一 个 相当 长 的 列表 , 得 是 这 些 转 征 对 在 awk 中 编写 各 序 提 人 性 了 补充 的 能 
力 。 


tawk 补充 的 内 置 函 数 


tawx 除 了 扩展 了 语言 , 由 提供 了 大 星 补 充 的 内 置 国 数 . 以 下 是 可 用 的 各 部 菊 型 的 函 
数 。 每 个 类 型 有 了 两 个 或 更 多 的 相关 国 数 。 我 们 将 简单 措 述 每 个 类 型 的 功能 。 


了 


本 solar 


加 和 
扩展 字符 串 员 数 。 标准 字符 串 函 数 的 扩展 和 新 的 宁 符 串 孝 数 , 可用 于 抄 模 眠 电 
的 子 模 或 进行 正本 和 趟 换 【 和 有 &awk 的 gensuhbO 国 数 相 同 )， 给 字符 种 中 的 子 
串 赋 俏 , 将 正 配 - - 定 模 式 的 宁 符 帅 分 解 到 数组 元 素 中 , 而 不 是 使 用 分 隔 符 来 分 
隔 。 壕 有 补充 的 Print 格式 和 字符 串 转 搞 国 数 。 尽管 这 些 困 数 可 以 采用 用 户 自 
定 艾 的 项 数 玉 编 写 ， 也 作为 内 置 请 数 能 介 供 更 强 的 功能 . 

位 处 埋 请 数 .。 可 以 用 逻辑 操作 符 AND、DOR 和 XOR 对 数据 〔( 整 数 ) 按 位 操作 。 
这 些 功 能 也 可 以 用 用 卢 自 室 交 的 国 数 来 实现 ， 但 性 能 较 莽 。 


更 多 的 HO 甬 数 。 有 . 组 函数 模仿 了 srdio(3) 库 中 的 函数 。 特 别 是 在 文件 中 进 
行 查找 以 及 接 固定 长 度 进 行 [O 时 ， 功 能 更 强 。 


日 孙 操 作 函 数 。 可 以 建立 、 出 路 和 改变 路 径 . 以 及 删除 和 重 命名 文件 。 
文件 信息 函数 ， 可 以 著 取 文件 许可 权 委 、 大 小 和 更 改 时 间 。 
读 到 日 永国 数 ， 可 以 获得 当前 目录 的 名 称 ， 并 读 取 目录 中 的 文件 名 列表 ， 


时 间 国 数 。 提供 了 改变 当前 时 间 的 函数 ， 并 可 用 各 种 方式 桥 式 化 。 这些 国 数 没 
有 gawk 中 的 strftimet 疼 数 灵 活 。 

执行 国 数 ,可 以 暂停 特定 的 时 间 , 而 使 其 他 曙 数 运行 .tawk 的 spawn0) 函 数 元 
许 你 为 新 的 种 序 环 境 提供 数据 ,以 及 标识 和 序 是 否 应 该 异步 运行 。 在 非 UNIX 
系统 上 这 总 很 月 用 的 ， 因 为 这 些 系统 上 的 命令 解释 器 【例如 MS-DOS 的 
comttamndcomy 荔 能 非常 有 限 。 

锁定 文件 。 你 如 以 锁定 和 解锁 文件 ， 以 及 台 理 文件 。 

展 幕 国 数 .你 可 以 朱 行 面向 屏幕 的 输入 输出 .在 UNIX 上 ,这 些 国 数 在 eursesf3) 
库 上 实现 。 

打包 或 解 包 二 进 制 数据 。 你 可 以 指定 如 何 设计 二 进 制 数据 结构 。 这 些 和 其 他 新 
的 IO 国 数 引 合 使 用 可 以 实现 接 二 进 制 形 式 进行 输入 输出 , 其 中 的 - - 些 操作 忆 
须 在 和 和 K&Ct+ 中 处 理 。 

让 问 内 部 状态 。 可 以 通过 函数 调用 有 获取 或 设置 任何 awk 变 项 。 

让 何 MS-DOS 底 基 蕊 能 。 可 以 使 用 系统 中 断 , 获取 或 指定 闪存 地 址 。 这 些 功 能 
卡 要 是 针对 未 业 和 人员 提供 的 。 


Pr 
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通过 这 个 列表 可 以 清楚 地 看 出 , 对 于 主要 的 编程 任务 , tawk 蚌 C 和 Perl 的 - :个 很 好 
的 桩 代 曲 。 例 如 ， 屏 幕 国 数 和 内 部 状态 函数 用 于 实 现在 awk 中 的 tawk 再 试问 。 


Videosof VSAWwK 


Videosofg ( 注 12) 用 售 的 软件 YSAwK， 将 awk 风格 的 编程 加 和 到 Visual Basie 环 
境 中 。VSAwK 是 Yisual Basic 的 :个 控件 ， 以 事件 虹 动 方式 作 。 和 awk - 样 、 
YSAwK 提 供 了 局 动 和 请 除 操作 , 并 能 将 输入 记录 分 解 到 字段 中 , 还 能 编写 表 达 式 和 
调用 awk 的 内 置 函 数 。 


VSAwk 的 数据 访问 模式 与 UNIX awk 类 似 ， 而 不 是 请 站 类 似 。 然 布 ， 有 趣 的 是 人 
们 将 awk 的 概念 应 由于 由 不 同 语言 提供 的 环境 ， 


后 记 

好 了 ,我 们 已 经 在 awk 中 将 编程 的 输入 和 输出 全部 讨论 『， 包括 标 崔 的 语 训 和 不 同 
实现 工具 中 可 用 的 扩展 。 当 你 使 用 awk 时 ， 你 会 发 现 它 是 - -个 简单 量 令 人 徊 服 的 编 
程 语 言 , 因为 它 为 你 完成 了 儿 平 所 有 的 苦 差 事 ， 所 以 你 可 以 集中 精力 来 解决 实际 的 
上 问题 。 





注 12: Videosoft 可 以 在 2625 Alcatrag 和 Yenue，Silite 271， Berkeley Caod4705 US 点 笨 到 。 
电话 : 1-510-704-8200。 传 真 : 1-S10-843-D174。 他 们 前 站 点 建 要 有 :ownvateeose 不 


居中 下 
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as。 生成 烙 式 化 索引 
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术 间 介 绍 了 凸 个 揽 菜 的 庶 用 ， 姓 人 台 了 awk 编程 证 吉 的 大 多 茹 特征 ， 第 “个 程 译 
spelleheek 提供 了 -个 UNIX spell 程 放 的 党 形式 接 [1、 第 个 程序 mmasterindex 是 

-个 批 处 理科 序 、， 州 十 为 :可 或 … 僚 书生 成 索引 即使 你 对 这 些 特 尹 的 应 用 不 感 兴 
趣 , 岂 应 该 堂 可 这 种 和 大 的 程序 以 村 awk 程 许 所 能 解雇 门 题 的 范 册 右 一 个 励 性 认识 。 


一 个 交互 式 拼 写 检查 器 


UNIX spel 程 计 十 掉 效 个 文档 中 的 拼写 错误 做 三 定 的 工作 。 然 而 对 大 多 数 人 
求 商 , 它 只 乱 了 下 的 工作 。 开 没 在 带 勘 你 更 止 拼 错 的 单 语 。 首 次 使 用 spel 的 用 六 
发 现 自 己 村 和 将 拼 气 错 记 的 单间 记 示 下 来 .然后 利用 文本 编辑 癌 来 修 监 训 梢 : 大 多 数 
吝 练 的 用 己 是 创建 :个 sed 积 序 来 月 动 进行 修改 。 


spellcheek 积 许 提 供 了 另外 “种 方法 : 亿 将 spe 和 发 现 的 每 个 单词 都 王 示 给 你 并 交 癌 
忠于 要 修改 这 个 单词 。 你 可 以 在 每 次 明 到 这 个 单 证 时 进行 修改 ,或 普 可 以 “次 将 所 
有 的 择 扎 错 庆 都 改 措 . 你 业 可 以 球 择 语 加 什 休 单词 , 这 些 单词 山 speH 从 本 地 洒 监 六 
件 上 中 找到， 


在 介 绍 这 个 各 订 志 前 ， 让 我 们 示范 :下 它 吕 如 向 工作 的 ， 攻 户 输 和 spelleheek， 几 
-个 调 衣 awk 的 he 并 友 ， 区 此 文本 文件 的 名 宣 。 
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与 “ 自 全 所 工 荆 台 所 它 安 其 也 由 站 
中 帮 如 人 莽 袜 有 上 省 LCL 工 E TY 


如 果 体 命令 行 扫 定 给 出 字典 文件 ， 而 在 妆 前 日 瑟 下 有 一 个 文件 如 cf， 那么 将 询问 用 
户 基 区 用 本 地 的 字典 。spejteheek 于 是 用 本 地 字典 运行 spell 程序 。 


RUnnino sool- Phecxer-，， 


用 由 spell 找 到 的 有 拼写 错误 的 单词 列表 ,speleheck 可 以 提醒 用 户 修改 它们 。 在 显 
未 第 一 个 单间 之 前 、 首 先 显示 “个 可 执行 操作 的 响应 绚 表 。 


RSDCTIISES 
ChaIlee each DecurremcE， 
亡 J 上 Da Pha3i， 
aq ED DicF， 
He 、 户 ， 
吕 U 
CHK Fe TIgnove: 
] -Feundd SParcSLac ion 17 HE ) :得 


spell 找到 的 第 .个 单词 是 “SparcStation ,输入 响应 “a"”( 后跟 一 个 四 车 键 》 表示 
将 这 个 单词 加 和 列表， 该 列表 用 于 更 新 宁 且 。 第 个 单词 完全 是 拼写 错误 ， 输 人 了 响 
庶 “g ”完成 全 局 的 修改 。 





了 -zeunG JarcLalGe (人 CryraerHyOD 1 : 

人 LIobal1y Changs 七 品 :二 遇 也 全 Q 色 厅 握 

Gjiobally sharce 1arguauge 七 襄 1anguage2iyzn) :TY 

> anQd full cescriprion ff its Scriptirs 1anmcuace， 
= ines Shangea.Sadve Shangesa 17) 了 


在 提示 用户 输入 正确 的 拼写 和 确认 输入 后 完成 修改 , 将 每 个 受 影响 的 行 显示 出 来 且 
在 前 面 加 上 ' 个 “>”。 然 后 在 保存 修改 前 询问 用 户 的 确认 。 第 三 个 单词 也 被 添加 到 
字典 中 。 


3 - Pena nawK 【Ce GZAH7 SA) : 生 
第 四 个 单间 误 拼 了 “utilities ”。 


-Founc JEitjtic3s IC7G7aeHA Te 
Tnese UE-ITEITYjSS have many things :mn common，iLacluding 
起 
忆 CDange toO:U 上 II 七 斌 所 习 
DamSS 人 LILILEYt IIS 古 口 ULLILTLItIES2 TY 3 六 
Tep mFher UE1LLLLies 上 hat re ftounG cm thes UNIX 日 ys 世 扣 和 
站 是 站 站 而 和 
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Change UL1:riteS 7 总 1ilzcies> TY 

>Tneese iil-cies have many Frhinge in commor， Ineluoine 
2 CePeT JuLLTILL1LES LaL are <one on the UNWIX 57SsLom 
之 ] imes CRanged。Savwe Charges3a (yy mn) 


用 六 输入 “c” 将 修改 出 现 的 每 个 错误 。 这 时 的 响应 使 用 户 独 到 包 禽 拼 写 错 误 的 行 并 
卫 进 行 修改 。 在 用 户 修改 完 所 有 错误 后 , 显示 修改 的 行 , 用 户 将 被 询问 是 否 保存 修 
改 。 


因为 不 能 确定 第 五 个 单词 是 否 是 捞 写 错误 ， 所 坎 用 户 可 以 输入 “c” 来 观察 这 行 。 





SS -Found XVwE 1C7G7 AI) :ee 
ar XVwL 于 :21SmBTe 


Change <“D:RETURM 


在 确认 没有 拼 错 之 后 , 用 户 键 人 回 车 键 以 忽略 这 个 单词 . 通常 ，spell 措 出 了 很 多 单 
词 但 它们 并 没有 拼 错 ， 因 此 输入 回 车 键 表示 忽略 这 个 单词 


当 处 理 完 列表 中 的 所 有 单词 后 ,或 者 用 户 在 这 之 前 退出 ， 将 提示 骨 疡 保存 修改 的 文 
档 和 他 红 。 


38awve CorrectrIons 2m Choo 人 yn1a 玫 
Je changGes to etponarty YA 了 


如 果 用 户 回答 “an”， 诛 始 的 文件 和 字典 都 保持 不 变 。 
现在 我 们 来 者 spelleheck,awk 脚本 ， 它 可 以 分 为 4 部 分 : 


*。 BEGIN 过 程 ， 处 理 命令 行 参 数 并 执行 spell 命令 来 建立 一 个 单词 列表 。 
* 主 过程 ，- :次 从 列表 中 读 取 一 个 单词 并 提示 用 户 输 人 正确 的 单词 。 


。 END 过程 , 保存 文件 的 拷贝 , 并 茸 盖 原始 文件 。 同时 也 将 单词 列表 以 外 的 单词 
扩充 到 当前 的 字典 中 


。， 支持 数 ， 调 用 它 用 十 修 收 文件。 


BEGIN 过 程 


8Spelleheeck.anF 的 BEGIN 过 程 很 太 ， 也 有 些 布 妇 党 。 


了 3 


溢 
, 蕊 
语 
到 





spelLlcneckawk -- 党 站 蕊 拼 写 检 得 程 片 
作者 :Dale 2ougherLy 


用 波 :Dawk 二 5Pe1llcheck awk [+aicc ] fl1E 
用 =sPeLlcheck 作 久 sne-1 程 赃 的 名 衬 

SEELIDICT = "Get 

SPELLFTTE = “ 王 11 台 ， 


女 芒 共和 和 陡 和 半 二 并 


BEGzH 动作 执行 下 列 任 务 ; 
1)} 处 刺 命令 行 参数 
21 创建 临 取 文 件 - 名 
3 引 执 行 spel1 程 序 来 创建 单词 列表 六 件 
4 秋 示 用 户 啊 应 的 列表 


耻 了 赣 帮 站 


BEGIN 1 
井 处 理 命 令 行 参数 
# 玫 少 两 个 参数 - -naswk 和 交 件 名 
ERGC > 
# 大 | 果 有 雌 个 以 上 的 震 数 ， 那 么 第 二 个 参数 是 diect 

iEF [RARGC > 2117 

# 宙 试 aictr 是 洛 遇 “+ ”指定 

# 六 将 ARGVTIL] 赋 给 SEELLDICT 

1E (ARGV[1] ~ env .sy 
引 PELLPICT = PmRGVw[11] 





已 1 与 纪 
SPELLPICT - "+ aRewv[1] 
# 特 aRGV121 赋 给 SPELLPTTR 
SPELLFILE =- ARGV[2] 
# 有 刷 除 args 以 便 awk 不 会 将 它 当 作文 件 打 天 
aetLete aRGY[1] 
Qelete ARGV[2 3 
了 
# 不 区 上 上 卫 个 参数 
包 ]Se 革 
# 将 ARGVTL1 赋 给 SPELLEFTILE 
SPELLFILE =aARGV [1 ] 
# 测 上 起 本 地 aicet 文件 是 否 存 在 
II 【1 SYStem fn"test -上 忆 icet')) 7 
# 和 如果 在 在 ， 询 问 是 对 应 读 使 用 它 
Brirtf Use 1ocal dict Eiley7 fn ) 
芋 忆 本 及 全 工人 方 I 了 < “一 
# 旭 果 网 营 是 ,使 用 “qict” 
E freply ~ [ye] es)2z)f 
SEELLDPICT = :+Qict" 
了 
} 
了 
} # 如 果 和 参数 大 于 1， 处 理 结束 
# 如果 参数 不 大 于 1， 那么 打 外 shell 命令 用 法 
折 1Se 
多 下 nt “可 S 坪 可 已 3 SPE1CheCK [+ 由 ice] 于 Le 
已 区 1 廿 圭 
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处 下 售 令 行 做 数 结束 

创建 临时 文 秆 和 名， 等 个 都 以 sp 开始 
WwWDrO1LLSL - “955 WoTrOLIS 
Fa- 工 DDLYCB 一 “9 吕 _LInEUL 
SB LDOuL -~ ”93D_DUE 


将 SPELLEILE 龟 制 到 临时 和 输入 文件 
3YyELermT "CR ”SFRLUTFTLE ' ”358 SCuUrCED)》 


一齐 运行 拼 安 各 序 ， 输 出 发 送 和 到 单词 列 查 
本 mn RUnmIn 可 SB11 2hECKET 
TYSPETTTTCTI 
SPFEDDCMD - "sBelLl ”SPEEDLDECT " 
司 ] S 伍 
号 PTTJELCMD -= SPell 
SYsremtSpF DCMD spPellsntree ”> ”woral:st ) 


各 | 试 单词 列表 ， 看 看 着 否 发 牛 了 拼写 错误 的 单 记 
【SYSteIT"LeSt -SS WwWorQLiet 
+ 如果 昔 间 鲜 赤 为 宝 【或 拼 卫 命令 失败 }， 进 出 
PTrIPRE "NO missoel]ec woras Ecoang." 
SYSterm iTm 号 ellscurece "1 WOrQLiLSt 
已 并 工 七 
上 
给 aRGV IT] 冉 单 问 别 表 ， 以 便 awk 法 取 它 。 
aaRGV[1，= wora]list 


显示 几 户 响 序 的 列表 
工 丰台 PomSeEIS 
TESPOnSeIj SEC 
YesPonseDIsx 
zasPomseDiSs:- 


工 各 5 记 OPnSeList "mn AtLGLObal change, 
下 此 忆 从 白衣 台 记 荆 S 上 “AGO 本 OO DiIet， 
IE5POIESELISE ”"Ym YLHEILD，" 
FESPomSeLiISL TeSPenseLisL ' Im WEDaIt 

工 esDonmseLiSst YeSsPpomngseList ”AD YECR to ISODTE 3: 
甩 T1n 【1 " 虽 避 ， ， 工 已 名 区 如 荆 扣 挟 LIS 二 》 


*# BEGIN 过 程 结 训 


“ 匠 生 汝 站 站 IE5 :站 上 它 h 肌 症 二 和 志 瑟瑟 人 品 CCUTTBTCE 


BEGIN 过程 的 第 一 部 分 处 理 命令 行 参 数 。 它 检测 如 果 “A 了 GC"” 比 1 大 , 则 程序 继 
续 。 也 就 是 说 ， 除 了 “nawk” 之 外 ， 必 须 给 出 文件 名 。 这 个 文件 名 指定 了 spell 要 
分 析 的 文档 。 一 个 可 选 的 字典 广 件 名 可 以 被 作为 第 二 个 套数。 尽管 spelleheek 命令 
并 不 支持 speii 的 任何 隐 含 选项 ， 了 但 spelleheek 程序 钉 循 spell 的 命令 行 接口 。 如 果 
没有 给 出 字典 ， 那 么 程序 执行 她 5 命令 以 确定 文件 aicf 是 否 存 在 。 如 果 存 在 ， 提 示 
用 户 确 定 利用 这 个 文件 作为 空 典 冯 件 。 


一 且 处 理 了 这 些 参 数 , 我们 将 从 ARGY 数组 中 腹 除 它们 , 这 将 防止 它们 被 解释 成 文 
件 名 参数 ， 


综合 应 用 4 _ 3 了 13 











BRSGIN 过 程 的 第 “部 分 建立 了 一 些 临 时 文件 ， 央 为 我 们 不 想 直 接 在 原始 文件 上 工 
作 。 在 这 个 程 岸 的 末尾 ,用 户 将 选择 保存 或 放 痉 在 临时 文件 上 所 做 的 工作 ,临时 文 
件 都 旦 以 “sp_ ”二 始 目 在 退出 程序 前 被 副 除 





这 个 过 程 的 第 部 分 执行 spel 程 序 并 建立 一 个 单间 列表 .我 们 测试 这 个 文件 是 否 存 
在 并 且 在 访问 志 前 确保 文件 中 包含 内 容 。 如 果 由 于 一 些 原 因 spell 程 序 失败 了, 或 者 
没有 发 现 拼 错 的 单词 ,文件 wordlist 将 是 空 的 . 如果 这 全 文件 在 在 ， 则 将 这 个 文件 
名 作为 ARGY 数 组 的 第 一 个 元 素 。 这 是 “个 不 常用 但 可 行 的 为 awk 将 要 访问 的 输入 
文件 提供 文件 名 的 办 法 . 注意 , 当 awk 被 调用 时 ， 这 个 文件 并 不 存在 ! 在 命令 行 中 
指定 的 文档 文件 名 , 不 再 存在 于 各 及 GY 数组 中 。 我 们 不 利用 awk 的 主 输入 循环 来 读 
了 到 这 个 文档 文件 ， 而 是 利用 -个 while 循环 来 读 取 文 件 以 发 现 井 更 正 拼 写 错 误 。 


BEGIN 过 程 的 最 后 部 分 的 任务 是 当 显示 一 个 拼 错 的 单 说 时 , 定 多 和 显示 用 户 能 做 
出 的 响 点 的 列表 。 这 个 列表 在 程序 开始 运行 时 显示 一 次 , 以 及 当 用 户 在 主 菜单 中 输 
人 “Help” 时 显示 。 将 这 个 列表 赋 给 … 个 变 荐 ,可 以 使 我 们 必要 时 在 程序 的 不 同 点 
访问 它 ， 以 避免 重复 。 对 responseList 的 赋值 可 以 更 容易 些 ， 但 所 有 字符 惠 太 长 ， 
在 这 本 韦 中 不 能 显示 【不 能 将 一 个 字符 串 分 开 为 两 行 ) 。 


主 过 程 


这 个 主 过程 殷 小 , 仅 显示 -- 个 拼 错 的 单词 和 提示 用 户 输入 适当 的 回答 。 这 个 过 程 对 
每 个 拼 错 的 单词 都 执行 。 


这 个 过 程 短 小 的 一 个 原因 是 因为 中 心 操作 (更 正 拼 错 的 单词 ), 它们 由 两 个 较 大 的 用 
户 自 定 义 国 数 来 处 理 ， 我 们 将 在 最 后 一 部 分 看 到 它们 。 


# 在 过程 ， 对 单词 列表 中 的 每 一 行 都 机 行 。 
亲 日 的 足 显示 拼 瑟 错误 的 单词 并 提示 用 户 
## 通 当 的 动作 。 


# 特 单 语 赋 绮 misspell:ng 
mLSSsPelling -= 区 1 
TeSPOISe = 工 
++WDI 忆 


# 于 下 返销 的 单 语 计 旬 R 呈 应 
While 1regDporse 1 712[cCGGaahHaDI ss 1 ， 
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Br iitEf Angd -Feuna $a TAGAaAHARA TWOTQ，m2SSPeL1LIDG) 
外 LTLime Tesponse < 


} 
+ 硕 丰 处 邱 用 玉 的 啊 诺 
F CAR -加 车 部 略 当前 的 单 襄 


+ 帮助 
工 【Te 所 SEOISe “TH eeEI327I 
# 再次 显示 出 旗 列 表 和 提示 
PILE 贡 人 "工人 SPDOTISET1LS 二 1) 
BEILTET AS 本 -Fe 和 【BR 站: ，WDTQ，ITLSSEGGLL IIS) 
如 已 十 已 工 已 SDCmESE < “一 
了 
# 进出 


2f (response ”7 [QU]IuULL) >) Xit 
# 客 加 划 字 典 
了 {TeSsPonse ~ [aaliadd27) 
六 2 亡 上 【+ 十 号 主 袜 由 mLTEY] = 交工 名 号 让 扣 11 工 叶 


】 
# 改变 乌 次 出 再 

守 1Fresp2mnse ”ieC] fnharge)27 

# 读 取 正 在 纠正 的 文件 的 每 一 行 
DeWSReL]1in 可 = ""7 cehanges = "" 
WW 并 人  【 富 已 二 1 斌 详 全 < S 记 eLILSOUTCel > 站 
# 调用 显示 拼 错 单 记 的 行 的 函数 
# 旧 提 示 腹 卢 进 行 每 个 校 目 

前 剖 基 它 _ 它 对 二 I 宙 所 3 生 } 

# 喷 有 的 行 都 转 到 临时 的 输出 文件 


BIIinE > SPeLlout 


} 
# 读 守 所 有 的 行 
# 站 束 临 肝 输 入 利 临 时 输出 文件 
Ce8sefSspelLout1 
CloselSspPel1SsOUYCE) 
# 如 果 做 了 改变 
了 上 【 它 5BanG 所 shT 
# 最 示 害 改变 的 行 
tor (= 1; 了 <= 它 hamGeg; ++] 1) 
Print ChangeaLines[ - 
BIT2HRtE 1 有 TInes changea,u，changesh 
# 在 保存 之 前 给 出 确认 的 前 数 
CnEILmL_SHanmSSS1) 
了 


】 
+ 全 局 改变 
IE 【reEPonse ~ 139G]1Lobalh2r) T 
# 调用 提示 校 止 的 国 数 
# 并 显示 盾 改 变 的 每 -一行 
# 在 保存 二 前 询问 用 户 确 认 所 有 的 改变 
中 癌 其 已 _ 可 隔世 aa-_ChanSe li) 
} 
1# 主 过程 结 束 
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wordlist 中 的 每 个 输入 行 的 第 一 个 牢 段 ， 包含 普 拼 错 的 单间 并 被 赋 给 misspelling 。 
我 们 构造 了 一 个 while 循 让 ， 在 其 中 我 们 将 拼 错 的 单词 显示 给 用 户 并 提示 用 户 作出 
师 应 。 仔 细 观 赛 卜 面 的 正则 表 和 法 式 ， 它 用 寺 测 试 response 的 值 : 


Tie tesPonse 1 CCgGEaEHOR1T | “2 


用 户 只 能 通过 输入 任意 指定 的 字符 或 键入 回 车 刍 【 -个 空 行 ) 退出 这 个 循环 。 利 用 
正则 表 过 式 炙 试 用 户 的 输入 有 助 于 编写 简单 灵 薄 的 程序 .用户 可 以 输入 一 个 小 写 或 
大 与 字母 < 或 以 “c ”开头 的 单 邮 ， 例 如 “Change”。 


主 过 程 的 余下 的 部 分 由 末 件 语句 组 成 ,用 于 调试 用 户 指定 的 响应 并 执行 相应 的 操作 。 
第 一 个 响应 是 “help”， 作 用 是 再 次 显示 响 点 列表 和 重新 显示 提示 。 


玉 -个 响 意 是 “quit"。 和 quit 柑 关 的 操作 是 exit， 用 于 退出 主 过 程 并 转 到 了 END 过 
程 。 


如 果 用 户 输入 “add", 拼 错 的 单词 将 被 加 入 到 数组 diet 中 , 并 将 被 作为 -个 例外 添 
加 到 本 地 字典 中 。 


“Change” 和 “Global” 响 应 使 程序 真正 开始 工作 。 理 解 它们 的 区 旭 很 重要 。 当 用 户 
输入 “ec” 或 “shange” 时 , 特 显示 文档 中 遇 到 的 第 一 个 树 错 的 单词 。 然 后 提示 用 户 
做 修改 。 这 将 在 文档 中 每 个 出 现 错 误 的 地 方 发 生 , 当 用 户 输 入 “8g” 或 “global” 时 ， 
提示 用 户 立 即 修改 ， 并 且 将 一 次 修改 记 有 的 错误 ， 且 设 有 提示 用 户 确认 每 个 修改 。 
这 个 工作 主要 由 两 个 函数 来 处 理 , make_change() 和 make global_ changet， 这 两 
个 国 数 我 们 将 在 最 后 -部 分 看 到 。 除 了 一 种 情况 外 ,这些 都 是 有 效 的 响应 。 回 车 表 
示 忽 略 振 错 的 单词 并 得 到 列表 申 的 下 一 个 单词 。 这 是 主 输入 循环 的 默认 操作 ,因此 
不 需要 为 它 设置 条 件 。 


END 过 程 

当然 ， 下 列 情况 之 - :将 进入 卫 ND 过 程 : 

。 spell 命令 失败 或 没有 发 现任 何 拼 错 的 单 闻 ， 
* ，” 摘 错 单词 的 列表 已 取 尽 

。， “用户 输入 “guit” 作 为 提示 的 响应 。 
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END 过 程 的 日 的 是 允许 用 户 确 认 对 文档 或 字典 的 任何 永久 性 修改 。 


# END 过 程 后 成 永和 的 咕 空 

上 必 晓 呈 时 多 奖 件 ， 并 时 字 典 中 
# 唆 加 节 这 

* 党 进 副 除 临 叶 文件 


ENP 工 
4 站 果 企 访 晤 一 条 间 求 后 到 达 这 里 没有 产 千 
+ 由 变 ， 周 时 进出 
YNR <= 1 exX1lt 
+ 用 户 基 须 崩 认 保 他 对 玄 们 的 校 目 
whi Le 1aavaaneswer 1 [ylTesial|1cnN 1o2)，) 1 
FEIILREE “ 遇 BVe RDTYCCtLorS 1 要 5 trnl3 "，BFELLRILES 
台 C 1 中 旺 号 避 VERTISWET 二 ”“ 
} 
# 如 果 答 案 是 生 定 的 ， 罚 各 mw 临时 输入 文件 为 SETESLI=LE 
# 保存 肝 的 SFELLSIIE， 以 防 万 
1 《av 们 ATISWET 一 [7 ]7 
SYStCeTI CE ”SPEDCFIDE ”SPELLFILE "”.5zi 可 "1 
号 革 避 上 IT II ” 号 钙 SeoUrCE "” "SELLDPIDE) 


上 
# 如 果 答 案 是 否定 的 ， 奢 么 为 zm 几 时 输 人 文件 
1 《SaavEPRTSWET ~ 人 [8] 7 
SyR&Lemt"rrt ”SPREJL-SCCrCB) 
# 刘 果 单 癌 已 经 漆 加 到 字典 数组 中 ， 屠 么 提示 确认 保存 卉 当前 字典 中 
填 二 如 SDHETIITW Savjng In current 电 :Crjionary， 
了 工 于 【村 诗 安 七 瑟 七 荆 Y》 了 
届 工 志士 “到 局 其 亿 安 ] 富 磋 生 所 对 七 口 凶 斌 记 E 主 OIIaITY 《Yen) 23 “ 
可 刀 Line 所 EDPDRSE < "一 
工 ff 《ESPOmSE ~ TYyYY]) 1 
# 旭 林 洗 有 宝 交 宝典， 厚 系 使 用 “aiet 
if 1 SPEEDLLPICT) SPERLDDICT = "Qict， 


# 蔚 坏 使 用 数组 并 将 划 启 添 策 至 典 小 
SuUbfnv+y，""， SPEJPDICT) 
fr 1 1 mn Oct 
DPIiLIE CCct[L=em| >> SEELDDICT 
ClaoseiSFELLDICT) 
# 排序 字典 文件 
SYSLeEII "SO "SPDLDICT "> Er _ act "1 
号 了 号 七 CR TRY 


】} 
# 删除 单词 列表 
SYS&LEemi "TYm SD_wcrdliget' 1 


+END 过 程 结束 
EN 过 程 以 “个 条 件 语 名 开始 来 测试 记 束 的 个 数 是 否 小 于 或 等 于 1。 当 sbel 积 序 卫 


有 产生 单词 列表 或 当 用户 看 到 第 一 个 记录 之 后 输入 “quit” 时 将 产生 这 种 情 疙 。 如 
果 产 乍 这 种 情况 ，BND 过 程 将 当 作 没有 可 保存 的 工作 而 退出 。 
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接着 ， 我 们 创建 一 个 while 循环 来 询问 用 户 将 所 做 的 修改 保存 到 文档 。 这 需要 用 户 
对 提示 回答 “y” 或 “n"。 如 果 四 葵 是 “y"， 痢 时 输入 文件 将 代替 原始 文档 文件 。 和 如 
果 回 答 是 “o"， 临 时 文件 被 删除 。 不 接受 其 他 的 响应 。 





下 “ 步 , 我 们 测试 数组 diet 中 是 台 有 内 容 。 它 的 元 素 是 要 生 加 到 字 烘 中 的 单词 。 如 
昌 用 忆 同 意 将 它们 如 入 型 字典 中 , 这 些 单 局 将 诡 加 到 上 面 所 定 浆 的 当前 字 上 典 中 ,如 
果 不 同 意 , 则 钼 加 到 本 地 dicr 文 件 中 。 因 为 被 spe 读 取 的 字典 必须 排序 , 因此 将 执 
行 -个 sort 命 令 对 送 到 临时 文件 的 输出 进行 排序 , 这 个 临时 文件 将 在 后 面 的 处 蛛 中 
巴 益 原文 件 。 





支持 函数 


这 里 有 3 个 支持 函数 ， 其 中 两 个 很 大 ， 用 于 完成 文档 的 大 多 数 修改 工作 。 第 三 个 函 
数 用 于 傅 定 用 户 想 要 保存 的 所 做 的 修改 。 


当 用 户 想 在 文档 中 “上 攻 变 每 个 错误 ”时 ， 主 过 程 利用 一 个 while 循环 每 次 读 到 文档 
的 一 行 【 这 行 成 为 80)。 通过 调用 make_ehange0 吨 数 来 确定 这 行 中 是 否 包 含 拼 错 
的 单词 。 如 果 在， 显示 这 行 并 提示 用 户 输入 相应 单词 的 正确 拼写 。 


# Take_changc -- 提示 用 户 纠正 当前 输 人 

## 和 的 错误 插 45 

并 调用 它 相 年 找到 衬 符 帅 中 的 其 他 出 现 ， 

天 StringTochange -- 制 始 为 S0， 然 后 是 sS0 中 不 匹配 的 子 串 
# len -- 从 S 的 开始 处 到 被 匹 本 的 字符 串 林 尾 的 长 度 

# 假设 定 又 了 托 号 错误 


function make_change (srringTochange，1ean， 井 参数 
1i0e，DKmdkecriarge，PTinterrinS，Ccarersl # 局 部 灾 丝 
{ 
者 匹配 sLringTochange 避 misspellino， 不 匹配 则 不 做 件 何 事情 
了 二 ah StEIn9TOChangE， 人 TSDEL1Ling) ) 二 
# 显示 十 匹 配 的 行 
Printstring = 号 站 
33sUbfestr，”"，BEIDLSETInGY 
BTrin= PRITIRtStLZIH 
FE-S = 1 
Teor 1 =1 L < RDEMGTH: +4+1L) 
它 站 上 各 二 号 = 安 遇 于 号 丰 吕 
if Len) 
FMT = “号 ”1LeniRSTRRT+RLENWGSTH-2 "所 wm" 
亿 、 汪 已 
FMT = "有 ”RSTaRT+RLENGTH 1 "gm 
也 TILOELTEMT， 二 二 TetS) 
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# 记 | 巢 还 浅 看 定 光 ,提示 用 户 校正 
2 1 new5EeEJl LInSOIT 
PTyIDnEE “ 守 hamnge [2“ 
各 所 FLReE DewESDTelling < 
】 
此 叶 车 则 证 过 
上 # 如 介 用户 给 入校 目 ， 和 确认 
全 生息 《成 包 全 名 丰 让] 1 六 要 贡 旦 1 OKmIS 下 丰 们 站 己 有 扫 全 1 区 
ET5DLE 1 Change 条 训 臣 口 备 2 【wy 人 ni3BeTL1InS，mewspelLzangy 
如 EL1LIHB DRKmakechange < "一 
madqech 台 ="" 
# 测试 啊 应 
E TDEmaKkechance ~ [YY] es T 
# 做 修改 ! 只 在 第 一次 盟 到 时 ， 


NGechg = SUpUTiSSDeL1ITO，DewSsBm 台 ng，3ETiHSIoCHarge) 
下 


else 1E ( DKnakechange - InNlc?”) Tf 
# 提供 重新 更 止 的 机 会 
PILE 于 “ 宛 上 Beg 全 LO: 1" 
自 忆 七 了 半 攻 总 站 全 WW 外 全 LT inS < “-" 
RSSCharISe = 
上 
) # while 循 环 结束 


# 记 果 1en 为 虑 ， 处 理 So 的 子 串 
If fen ti 
# 对 它 进 行 访 编 
1Line = SubstriS0,1, Len-1) 
SUD = 1 人 tmnSTOChanmSe 


全 ss 

S0 = 提 FTISTochanmn 包 所 

计 (maQechgi ++Charmdg 扣 S 
上 


# 将 改变 的 行 播 人 要 证 示 的 数组 
1 imaaechg) 
如上 3 刁 可 已 吕 LSS [Chanmges ] == “> 让 站 


# 创建 子囊 . 这 样 可 以 试图 匹配 其 他 的 出 现 
Sn += RSTART + 有 DENGTH 
也 己 IL1L = SUPpStLT IST ，1，1en-11) 
卫 忌 t 过 = SU 岂 Str iD ， 工 避 立 ) 

# 调用 本身 求 看 看 剩余 的 部 分 中 基 否 有 错误 


号 KR_ehangeiEarr2a。 工人 BR) 
] # 让 诸 他 结束 


} # 国 数 make_change1) 结束 
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如 时 在 当前 行 没有 找到 拼 销 的 草 词 , 什么 都 不 做 。 如 果 找 到 了 ,这 个 国 数 显 示 包 含 
拼 错 单词 的 行 并 询问 用 户 是 否 要 改 止 。 在 显示 当前 行 的 下 面 有 一 排 * 符 号 用 干 标 座 
拼 错 的 单 问 。 





Twa CELher DLLILLECIES 二 hat 局 Te TOCUTG om 上 he WUNIX SYS 上 它 FL 
ns 


当前 输入 行 被 复制 到 Printstring 中 , 因为 有 必要 改变 这 行 以 便 显 示 。 如 果 这 个 行 包 
售 - 些 制 表 符 , 在 这 个 行 的 副本 中 每 个 制 表 符 者 用 :个 空格 伐 赫 。 这 训 解 决 了 当 制 
表 符 出 坝 上 时 如 何 对 齐 ^ 符 号 的 问题 〈《 当 计算 一 行 的 长度 时 ,一 个 制 袁 符 作 为 一 个 音 
独 的 字符 计算 ， 但 实际 上 它 显 示 时 占用 了 更 多 的 空格 ， 通 常 是 5 到 8 个 字符 长 )。 


当 显示 出 这 行 后 ， 蚊 数据 示 用 户 输 入 正确 的 单 闻 。 然 后 接着 显示 用 户 和 输入 的 内 容 并 
请 求 确认 。 如 果 确 认 是 止 策 的 单词 ， 则 调用 sab(0 国 数 来 进行 修改 。 如 果 没 有 确认 ， 
将 给 用 户 另 外 一 个 机 会 输入 正确 的 单词 。 


记 住 ，sub0 国 数 只 修改 行 中 第 次 出 现 的 单词 。 而 gsub0O 函 数 修改 一 行 中 出 现 
的 所 有 单词 , 但 我 们 想 让 用 户 对 每 次 修改 做 出 确认 。 因此 , 我 们 不 得 不 提取 余下 的 
部 分 中 拼 错 的 单 启 。 而 且 我 们 不 得 不 提取 下 一 个 出 现 的 单词 .而 不 管 第 一 次 出 现 的 
单词 是 否 被 修改 。 





为 了 完成 这 些 功能 ,将 函数 名 ake_changeO 设 计 成 递归 胃 数 ， 它 调用 自己 以 在 同一 
行 上 查找 符合 条 件 的 其 他 单间 。 换 名 话说 ， 当 make_change0) 第 一 次 被 调用 时 ， 它 
查找 上 个 $0 并 提取 这 一 行 中 第 一 个 托 错 的 单词 。 然 后 它 将 这 个 行 分 为 两 部 分 一 一 
第 “部 分 包含 到 第 一 次 出 现 的 单词 末尾 的 所 有 字符 ,第 二 部 分 包含 这 行 的 其 他 所 有 
的 字符 。 然后 它 调 用 自己 来 提取 第 二 部 分 中 的 拼 错 的 单词 。 当 递归 调用 时 , 这 个 国 
数 使 用 了 两 个 参数 ， 


前 疝 K 关 _ 它 卫 王 D 宫 总 | 柜 起 工人) 


第 一 个 参数 是 要 修改 的 字符 串 , 当 从 主 过 程 中 调用 时 , 它 初 始 为 4, 但 以 后 各 次 都 
是 30 余 下 的 部 分 , 第 一 个 参数 的 len 或 第 “部 分 的 长 度 ， 我 们 可 以 利用 它 来 提取 子 
串 并 在 最 后 将 两 部 分 重新 组 合 在 一 起 。 


霄 数 make_ehange0) 还 用 于 将 被 改变 的 行 收 集 到 一 个 数组 中 
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# 将 雏 改 变 的 行 斌 人 数组 中 以 使 显示 
Tt fnadechgl 
ehangeadLines [change&s ] -=- ">" 90 


如 果 闲 数 subO 执 行 成 功 ， 变 量 madechg 将 得 到 一 个 值 。$0 ( 琴 个 部 分 已 经 重新 合 
并 在 起 ) 被 戌 给 数组 的 -个 元 素 。 当 读 有 文档 中 的 所 有 行 志 后 主 过 程 簿 坏 访问 
这 个 数组 并 显示 所 有 被 修 疏 的 行 。 然 后 调用 范 数 confirm_changes0 询 问 是 否 保 存 
这 些 修改 。 它 将 用 临时 和 输出 文件 覆盖 临时 输入 文件 ,保持 修改 了 拼 错 单词 后 的 完 
结果 。 








如 果 -个 用 户 雇 定 做 “全 局 修改 ", 则 冰 用 闲 数 make_Sglobal_ change 来 完成 。 这 
个 国 数 和 make_ehanmgeO 国 数 类 伺 , 但 是 更 简单 ， 因 为 我 们 可 以 实现 对 每 行 的 全 局 
修改 。 


# maKE_ 也 Pa-_ehange 一 - 

在 提示 出 卢 全 局 校正 所 和 行 
帮 的 拼写 错误 

埋 没有 参数 

# 假设 省 六 了 拼写 错误 


=UTCLIeo maKC_ g1Lobailr_changet newsbpell1ing， OKmakechange，eChanges) 
f 
# 提示 用 户 校 正 插 写 错误 的 单词 

BriRLT "Lobal-y change Lao: " 

可 C] 电 和 DewS 瑟 全 11Ling < "-: 


# bl 车 则 壬 过 
# 如 果 有 - ,个 中 答 ， 隐 认 
WHILE (newSReLLinS 8E 1 DRKmakechange) 1 
BTinEE 1 " 合 LPbally changye 条 3 LO 革 57? fyYAnr ，misespel1lLing， 
mewspellingy) 
呈 蕊 后 站 Kmalceehange < "-/ 
# 洒 试 响应 并 牢 成 改变 
1 TOKmakechange ~ [YY] ies)3y7 ) 
# 打开 文件 ， 读 取 所 韦 的 行 
While 【 寺 外 LInS < seel1SGUYCE) > 日 { 
如果 找 到 匹配 ， 利 用 ssub 进行 政变 
# 打印 每 个 被 改变 的 行 。 
一 于 PELLEDS)) 
Iaqechg = gebtmisspel1irg，newespellingl 
Pr3nL "> "0 
charges += 1 # 统计 改变 的 行 
} 
# 将 所 有 的 行 呈 到 谭 时 输出 文件 


PIiInL > Spel1cut 


} # 读 取 文 件 的 while 衢 三 结束 
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H 攻 国 时 文件 
它 1 3 所 TSbel out 
女 ] 台 SETSDeLSCGUECE》 
# 报告 改变 的 狼 量 
PEIILT 7" 生 吕 了 工 总 Shamgea. Changoesh 
# 调用 在 保存 改变 之 前 确认 的 抽 数 
CODE TTm ChaDm desTry) 
+k 荣 件 语 介 1DKmakechange - >) 绩 束 


# 刻 颗 榨 止 省 有 傅 认 ， 提 示 新 的 单 问 
SLS 1Lf (OFrakecnangE -~ “DG 【 
甩 工 让 上 于 “后 局 区 二 工 和 世 an 避 避 二 司 : 
号 ELt1ime mewsDbelling < '-， 
中 KmeKGCHanGB = ”” 
] 


} +# 提 本 出 卢 校 止 的 while 补 环 结束 
} 和 图 数 make_ glcpal_c=hangeti) 结 东 
这 个 国教 提示 用 户 输入 正确 的 单词 。 设 置 while 循环 用 于 读 取 文 档 的 所 有 行 并 使 用 
函数 gsuhO 实 现 修 改 . 主要 区 别 是 所 有 的 修改 -次 完成 ,没有 浊 示 用 户 对 它们 确认 。 


当 所 有 的 行 被 读 育 后 ， 国 数 显 示 已 经 修改 的 行 并 在 保存 它们 之 前 调用 因数 
comn 人 rim_changest 得 到 用 户 对 这 些 修改 的 锁 认 。 





国 数 confirm_ehangesf) 被 make_change() 和 make_global_cehangef) 函 数 调 用 , 用 
来 对 这 两 个 因数 产生 的 修改 进行 确认 。 


# emntatrmenanges -~ 


在 保存 更 必 . 忆 前 确认 


EuHCEion coreizrt_ehanges1Ssavechanges 
# 提 去 确认 保存 更 改 
wh2le (1! Savechanges ] 1 
PrImtE 《 "Save CRanges?fyern) "1 
可 已 世 TD 人 号 和 weECHarGeEE < “一 


1 
# 如 昌 确 认 ，m 输 肝 到 输入 
1 上 【Savechanges ~- [YYj teaslz2 门 
号 下 马上 em 人 MI ” 呈 了 EL1LDUHE "上 PEL1SOUECEI) 
】} 


设计 这 个 函数 的 原因 是 为 了 防止 代码 重复 。 它 的 划 的 就 是 当 用 文档 文件 的 新 版 本 
{spellont) 蔡 换 老 版 本 【spellsource) 计 通 知 用 户 这 些 变化 。 
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speltchneck 的 shell 脚本 


为 了 使 病 攻 以 上 的 awk 邯 本 更 容易 ,我们 创建 了 spellcheck 的 shell 靶 本 【据说 可 
以 快 3 倍 }。 它 包 售 下 面 的 程序 行 。 


矶 MKLTR= uCTr 7 TecaIrawk11b 
TaWK 一 这 宙 WETLTBSDE 1LCheck .awk 筷 * 


这 个 程序 设置 了 - .个 shel] 变量 和 WKELIB ， 用 于 指定 spelleheck.awk 脚本 的 位 置 。 
符号 “$* ”将 扩展 跟 在 脚本 名 后 的 所 有 命令 行 参 数 ， 这 样 ， 这 些 参数 就 可 以 在 awk 
中 使 用 了 。 


这 个 持 号 检查 器 的 一 个 有 趣 的 特点 是 这 个 shell 著 本 非常 简短 ( 注 1)。 所 有 工作 由 
awk 编程 语言 完成 , 包括 执行 10 个 UNI 生 命令。 我 们 在 awk 中 利用 - : 臻 的 语法 和 相 
同 的 结构 来 处 理 . 当 一 部 分 工作 在 shell 中 完成 而 另 一 部 分 工作 在 awk 中 完成 时 ， 可 
能 会 引起 混 诺 。 例如， 你 必须 注意 证 条 件 在 语法 上 的 区 别 和 如 何 引用 变量 。awk 
的 现代 版 本 提供 了 可 代替 的 sheIl 技 行 命令 彰 与 用 户 连 接 的 功能 . spelleheceKk.awk 的 
完整 列表 可 以 在 附录 三 “第 十 二 章 的 补充 ”中 找到 ， 


生成 格式 化 索引 


生成 一 个 索引 的 操作 - 般 包 括 3 步 : 


4。 对 文档 中 的 索引 条 目 进 行 编码 。 
*。 “ 辖 式 化 文档 ， 用 页 码 生 成 索引 条 目 。 


*。 处理 索引 条 日 ,对 它们 进行 分 类 , 对 只 是 页 码 不 同 的 条 目 进行 组 台 , 然后 准备 
格式 人 索引 ， 


无 论 是 使 用 troff ， 或 者 其 他 编 玛 批 桥 式 处 理 跨 ， 或 者 WYSIWYG 格式 处 理 器 【如 
FramelMaker) ,处 理 起 来 痢 非 常 相似 ， 尽 管 使 用 后 者 处 理 步 双 也 许 没有 那么 直观 ， 
我 们 将 朱 述 如 何 用 teoff 来 生成 和 本 书 的 索引 相 类 似 的 索引 。 我 们 用 下 面 的 密 来 生成 
索引 。 





注 了 : UNI 基 的 文本 处 理 【Doughetrty and 口 有 eilly, Heward W.Sams ，1987) 给 出 一 个 基于 
se 的 糙 写 检查 莫 ， 它 主要 是 基于 shell 的 。 将 这 两 个 版 本 出 较 是 扑 有 有趣 的 。 
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宏 描述 

.其 其 生成 普通 的 索引 条 目 

.XN 创建 “see” 或 “see also” 变 习 引 用 

.X 创建 以 粗 体 表 示 的 页 条 日 ， 以 帘 出 大 主 引用 
.XS 生成 页 码 范 围 的 开始 位 置 

FE 4! 生 记 页 玛 范围 终止 位 置 





这 些 安 需 要 -个 用 引号 括 作 的 变量 ， 它 可 以 有 几 个 形式 ,表示 为 主 ， 次， 或 第 三 关 
键 字 。 


“Primary[T:Ssecondarwy[iterciary]]” 
利用 冒号 作为 主 贡 键 字 和 次 关键 字 的 分 隔 符 。 为 了 支持 星期 的 编 侣 习惯, 如 果 没 有 
用 冒号 可 以 将 第 -个 有 逗号 解释 为 分 隔 符 , 分 号 表示 存在 第 三 个 关键 字 。 页 码 总 是 和 
最 后 一 个 鞠 键 字 相 关 。 
这 里 有 “个 只 有 主 关键 字 的 记录 : 

XXXVwTeWTY 
下 面 两 个 给 出 了 次 关键 字 


.X 和 "XITSW: TeSSrVSG mames 
.其 且 “中 VEW ， 古 如 己 K 忆 可 全 吕 " 


最 复杂 的 条 目 包 括 3 个 关 链 字 


-XXX “XWVTGW: Do 林 ectsr 1 工 S 二 ， 
其 “凑巧 WW : 吕 D] 扬 导 汪 ， HeFBarChy 吕 于 " 


最 后 ， 有 两 种 类 型 的 交叉 引用 : 


-有 “和 了 匠 工 站 让 它 吕 W 呈 TYT  【《 呈 全 咎 号 夺 IE hamQ13an 可 ) 
.X “mE maiIST: 18 人 站 13 扣 xmh mailer) 


这 里 的 “see” 条 目 指示 人 们 查找 另 - -个 索引 条 目 。 而 “see alse” 也 常用 于 当 条 有 目 
存在 的 情况 ,在 这 个 例子 中 ,是 “mh mailer” ,但 在 另 一 个 名 字 下 面 有 编目 原则 的 
相关 信息 。 只 有 “得 看 ”项 目 没有 相关 的 页 码 ， 
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当 文 梢 用 tro 生 处 理 时 ， 将 产生 下 面 的 索引 条 日 : 


XIEewr 业 

其 W1 归 W 工 全 人 FE Qamea 瑟 了 

其 W 工 己 W， 冲天 区 避 可 所 吕 和 

KUIew: ob]ecrb3si 1ListL ct 43 
KWwiow: objecrar merarchy of 下 上 


发 了 后 W， 吕 忆 忆 KaSc 斌 晤 和 
ETYOIT every: TSeE error hand1tinogl) 
mt Iailesr: 4182 SS xmrh maileTr) 下 拍 


这 些 条 日 被 作为 索引 程序 的 输入 。 每 个 条 日 { 除 了 “see” 条 昌 外 ) 都 由 关键 宇和 一 
个 页 础 组 成 。 也 就 是 说 ， 每 个 条 日 分 成 两 部 分 ， 第 -部 分 的 关键 字 还 可 以 分 成 3 个 
部 分 。 当 索引 程序 处 理 这 些 条 目 卫 对 输出 进行 格式 化 时 ,“Xview” 条 目 被 按 下 面 的 
方式 组 合 : 








XISW， 4 
误 电 JeeL 上 Terarehy 放 E。 9: 
IESL osSf，43 
已 己 CKB 对 ES， 站 ji ， 5 
上 号 Serwed manTeSs，443 


要 完成 这 些 功能 ， 索 引 程序 必须: 


。 。” 按 关 键 宇和 页 码 对 索引 排序 。 
。 合并 只 有 页 码 不 同 的 条 目 。 

。 合并 有 相同 主 关 键 宇和 / 或 次 关键 字 的 条 日 ， 

。 寻找 韦 续 的 页 码 并 组 合 为 一 个 范围 

。 格式 化 索引 以 便 显 示 在 屏幕 上 或 打印 。 

和 如果 对 一 本 书 的 索引 条 日 进行 处 理 ， 这 就 是 素 引 程序 将 要 做 的 工作 . 也 可 以 建立 _- 
个 主 索引， 好 “ 套 书 的 总 索引 。 要 完成 这 - -功能 ，awk 胸 本 应 该 在 页 码 后 面 增加 _- 


个 罗马 数字 或 编写 。 每 个 文件 包含 一 本 书 的 条 目 而 这 些 条 目 是 惟 “标识 的 。 如果 我 
们 选择 用 罗马 数字 来 标识 人 着， 那么 上 面 的 条 肯 将 被 修改 为 : 


Xiew 42: 工 
Lew : 工 吕 SETVe 驴 “ameS 妈 3 5 
30Uiew: Dbyectrsi lleL 33: 工 


对 于 多 穷 条 上 月， 最 后 生成 的 索引 将 是 这 样 : 
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XYWYiew， [437 113353，63，75 
站 世 JERLSThIeearceny 站 二 工 :站 入 
JisL Dz，IT:e37 二 工 :5 
下 本 区 口 吕 全 号， 工 : 和 寺 ,了 
TeTwed TIGnCE， 工 :43 
现在 惟一 重要 的 旦 ,此 知 道 作为 awk 程序 输入 的 索引 条 日 , 是 带 有 一 个 页 码 还 是 带 
有 页 友和 卷 标 识 符 的 ， 


主 索引 程序 


因为 该 索引 应 用 程序 较 长 旦 较 复 杂 【 注 2), 我 们 捕 术 了 大 的 程序 结构 -。 利用 程序 的 
注 生 来 理解 程序 的 每 行 起 什么 作用 。 


佳 描述 了 程序 的 每 个 模块 之 后 , 最 后 -部 分 讨论 剩 你 的 儿 个 细 池 . 这 些 代 码 段 主要 
用 于 处 理 编程 过 程 中 本 质 的 与 输入 有 关 的 问题 。shell 法 本 masterintlex ( 注 3) 多 
任用 户 指 定 一 系列 不 同 的 命令 行 选项 来 定义 生成 件 么 类 型 的 索引 ， 并 调用 必要 的 
awk 程序 来 完成 相应 的 工作 。masterindex 程序 的 操作 被 分 成 五 个 单独 的 程序 或 模 
块 并 形成 :个 管 遂 。 


inpur,iex | scrL | pagenums-idx | comnbine .idx | tormat .iaqx 





注 2: 索引 程序 的 起 源 追 淹 到 Steve Talbott 用 awk 编写 的 索引 程序 的 删 本 。 我 通过 对 它 进 
行 刘 析 来 了 解 它 ,并 对 它 壕 行 了 改动 从 而 使 它 支持 连续 的 页 篇 村 (除了 分 和 节 的 页 篇 导 
以 外 )， 屠 就 是 我 在 《UNIX Text Processing》 中 描述 的 程序 。 因 为 对 那 小 程序 的 了 
解 ， 我 编写 了 一 个 索引 程序 ， 它 能 处 理由 Microsoft Word 产生 的 索引 过目 ， 并 使 用 
分 节 的 页 蝙 号 生成 索 习 。 后 来 ， 我 们 的 其 Window Systetmn Setfies 中 有 几 本 书 需 要 一 
个 主 索引 。 我 把 它 看 做 是 重新 思考 索引 程序 的 机 会 ， 并 用 awk 重新 妨 写 ， 所 以 它 支 
特 一 未 书 和 多 末 书 的 索引 。《fThe AWK Programming Langunage》 包含 一 个 素 引 程序 
的 示例 , 它 比 这 里 展示 的 示例 要 小 。 如果 你 发 理 过 里 的 示例 坟 复 杂 吉 可以 从 该 较 小 的 
程序 入 于 。 越 而 ， 它 不 处 理 关键 宇 。 那 个 索引 程序 是 Bell Labs Computing Science 
Technical Report 128&Tools for Printing Indexes3{ 时 了 rian 政 eTtighamh 和 Jon Bentley 
在 1986 年 编写 的 ) 中 描述 的 程 译 的 简化 片 本 .ED.D 1 


汪 3: 这 个 shel 竺 本 和 有 关 文 档 在 附 凶 三 中 给 出 。 可 以 先 阅读 这 个 文档 从 而 对 使 用 这 沾 程 序 
有 个 基本 的 理解 - 
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所 有 的 这 些 程序 除 一 个 外 都 是 用 awk 编写 的 。 上 时 对 寄 引 条 日 排 序 ， 我 们 使 用 标准 
UNIX 实用 工 上 其 sort 来 完成 下面 对 每 个 程序 的 功能 做 了 简 榴 的 概 插 : 








input,idx 
将 条 日 的 格式 标准 化 并 依次 输入 它们 ， 
SOTt 
根据 关键 字 、 郑 和 页 码 对 条 毕 进 行 排序 。 
了 9 帮 enumas.igdX 
含 并 有 相同 关键 字 的 项 ， 建 立 “个 页 码 列表 。 
Cnmmbine,.idx 
将 连续 的 页 码 组 合成 -个 范围 。 


format,idx 


准备 格式 化 素 引 ， 以 便 显 示 或 由 tro 竹 处 理 ， 


我 们 将 用 单独 的 节 来 讨论 每 一 步 。 


标准 化 输入 
input'idx 脚本 寻找 不 同类 型 的 条 目 ， 并 将 它们 标准 化 以 便于 后 续 的 程序 访问 。 另 
外 ， 它 自动 使 索引 条 日 包含 一 个 【~) 符号 【 参 闪 本 章 后 面 的 内 容 “ 互 换 两 部 分 ”)。 


input'igx 程序 的 输 人 由 两 个 用 制 表 符 分 踢 的 字段 组 成 (在 前 面 介绍 过 )。 这 个 程序 
产生 的 和 输出 是 由 留 号 分 隔 的 3 个 字段 。 第 - -个 字段 包含 主 关键 字 ,， 第 一 个 字段 包 含 
次 关键 字 和 第 三 关键 字 【如 果 给 出 ); 第 三 个 字段 包含 页 码 。 


下 面 是 iput.iax 程序 的 代码 : 
#1AwerkrPinrnawk -于 


# input.iqx -- 在 徘 序 之 遂 标 准 化 输入 
# 作者 :DalLe Deugherty 
提 Versicon 1.1 3251079D0 











# 输 人 站 “条 日 ” 制 表 符 “ 丰 码 ” 


BEGIW FS = "St OF = 





nrrerrrrm 下 


As- 
人 


这 
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#1 了 吃 配 世 育 -个 ~ 的 需要 芝 换 的 条 日 
此 SA 陵 止 则 表达 式 不 工作， 不知 为 什么 
SA 
# 将 第 个 宁 妥 分 解 乔 名 为 supfiela 的 数组 中 
阅 = 是 及 1 《1 ， SHEILe1I 本 "1 
it fr == ZI 
# 才 印 没有 “一 ”的 稳 朋 ,此 后 竺 换 
BEImt 开 1 " 务 s 千 3: 基 5 ， SUDfielG[r[1]。subpfieza[23]，921 
有 RhTimntE 1 " 虽 后 3 和 S :各 BAH SUDEIelaLZ]，SUPBEILeGLIOTLI]，S31 


刀 人 它 基 全 
+ 工 结束 


#2 亚 配 也 辣 册 个 -的 条 日 


SL 一 7- 
4 用 “-” 宕 换 “一 
写 SUED17 一， 1 
} # 2 结 昌 


#3 用 “: ”匹配 证 而 上 的 “:” 条 月 
1L ~ “3 1 
# 将 “::” 韩 换 成 八 圭 制 值 
介 Sub AWAY 号 1 
}# 3 结束 


#4 请 除 荣 目 
{ 
# 二 找 第 一 个 由 号 ， 可 用 于 代 圭 “和 
1 SUBb1zt 
SUPI7 :ie "7 St) 
】 
# 如 果 骨 号 后 而 有 内 容 就 剧 除 空格 
SUBIAIYA 1 
如 果 有 逼 沁 用 做 分 隔 符 ， 将 它 转 换 成 骨 号 
iE isSl 5 21 1 
# 对 本 “see also” 和 “see” 条 日 ,在 “1 人 ”前 放 帝 分 晤 特 
Et 1S1 ~ tsS]eer) ( 
于 ESUDIA， .AT 让"， 呈 1)) 
Suhpblins vt nr SS1L) 
已 上 上 S 全 
SUBIA AT 
】 
else { 刀 涯 则 只 查找 逗号 
Sb ，* 1 31，S1) 


了 
了 
己 1 3 人 上 
# 在 “see” 中 播 入 分 号 
证 《SEE Ti]+t ww [SSieerl 
SUDIA AT 0 S1) 
}》 


} 半 “和 冯 铺 束 


- 。 mv = 一 ommareeeeeeierre 一 er -aurrme 一 一 一 一 一 一 rr 一 
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# 5 此 配 see ALsos 让 日 为 战 后 排 订 做 准将 
S1 xiSs lee +[aAa ]1eor 上 
# 增加“-zz' 片 以 排序 
Subi' Ti TSS]ee +| 瑟 aa ]]S297， 213ee 垢 LS 
if 31 
SET TFTZzZ" SS1) 


上 
+ 肇 开 役 有 页 介 
TISa == "1 1 
ErFimz 8S0 
meXFE 
} 
性 1 对 
+ 输出 呐 个 条 
# 打印 See 中 1s 获 扫 的 wy eut 和 页码 
Print S2 1” 
# 删 掉 See 问 18 品 
SU 一世 ZTC SEE 已]SD. 天 上 ， 1 31) 
SUDf 7 "1) 
# 打印 普 首 条目 
ETISLm 
BrainE S1 "1 S2 














忌 ] 呈 全 
BFIDRHE S1 3 ”2 
六 安居 二 


}# 5 结束 





5 处理 投 布 页 码 的 条 目 【sse 条 日 } 
INF ==1 13 -= ”hs1 = Atlssleer) 1 
# 如 果 足 “see” 条 上 
it (SS1L ~ (IsS3eeA ) 工 
让 (8 
ErinEt S1 " 














已 1 号 它 
FEIiRE 号 1 3 
了 号 其 苇 
了 
el1se { 如 果 是 See 条 目 ， 则 产生 -个 错误 
PrinterrioNO Page Dunber'， 
卫 皇 X 七 


} 划 三 结 束 


#7 如 果 用 崩 号 作为 分 隅 镍 


SELL ~ 
上 # 输出 # 条 日 :页 而 
PDFIRL 人 0: 2 
PPexL 
]}# 了 结束 


#8 [以 主 关键 字 上 E 配 条 日 。 


$1) 


综合 应 用 四 2 





Brinmt 史 1 ”333 
1 8 结束 
点 拉 鸭 粘 
烛 
# pintetT -打印 错误 宵 息 和 当前 记录 
# 癌 可 :将 本 显示 的 消息 


三 UPCEC IT 卫 并 ci 号 工 贡 《me 呈 名 卫 可 会) 下 

4 才 [ 旬 宵 息 、 记 录 号 和 记录 

症 广 EC 全 RRODR :省 妆 【千本 有 SA InesSaaoE，NR，30) > "devwvAEcy" 
】 


这 个 脚本 有 许多 模式 匹配 规则 用 于 识别 不 局 类 型 的 输入 。 注意 ,每 个 条 目 都 可 以 和 
多 个 规 别 匹配 ， 除 非 和 某 个 规则 相关 的 操作 调用 了 next 语 名 。 


讨论 这 个 脚本 了 时、 我 们 将 用 数字 表示 每 个 规则 . 规则 1 交换 包含 一 个 代 字 符 《~) 的 
条 目 并 产生 两 个 输出 记录 。 国 数 splitO 生 成 一 个 数组 ， 命 名 为 subfield， 其 中 包 售 
组 合 条 目的 两 部 分 . 这 两 部 分 核 它们 原始 的 顺序 被 打印 出 来 ,然后 被 灾 绩 站 序 并 成 
为 第 二 个 输出 记录 ,， 在 这 个 记录 中 次 关键 宇 变 成 主 关 键 字 。 


国 为 我 们 将 代 字 符 作 为 特殊 字符 ,所 以 我 们 必须 提供 某 种 方法 来 输 人 这 个 字符 。 我 
们 利用 这 个 约定 ， 即 将 两 个 连续 的 代 字 符 翻 译 为 一 个 代 字符 。 规 则 2 用 来 处 理 这 种 
情况 , 但 注意 规则 1 确保 了 它 所 匹配 的 第 一 个 代 闻 符 后 面 不 是 另 -… 个 伐 字符 { 广 4)， 


这 个 脚本 中 的 规则 1 和 规则 2 的 颗 序 很 重要 。 只 有 当 过 各 将 条 已 交 换 后 , 才能 用 “~ 
来 代替 “~…。 


规则 3 和 规则 2 所 向 的 工作 类 似 。 可 以 用 “: : ” 业 输 出 索引 中 的 一 个 “: ”符号 。 见 
市 ， 因 为 我 们 把 冒号 作为 输入 分 隔 符 将 输 人 输送 到 程序 , 我 们 不 允许 它 册 现在 最 后 





注 寺 ; 在 第 一 版 中 ，Dale 写 到 “为 了 更 多 的 信 演 ， 如 棱 你 知道 为 什么 在 规 刚 上 上 前面 的 被 注 
普 的 正 别 表达 式 不 工作 的 话 ,请 发 电子 邮件 给 我 。 我 习惯 于 特 复 和合 表达 或 作为 最 后 一 
和 手段” 。 我 很 苦 民 承认 这 全 问题 难 倒 了 我 。 妆 昌 enry Spencer 打开 灯 时 ， 它 使 大 于 
且 :“ 蔗 注 纤 的 正则 表达 式 不 工作 的 原因 是 它 不 做 作者 想 让 它 做 的 事情 ， 它 轩 找 后 面 
中 有 非 代 字符 字符 的 代 字 将 …… 但 县 ~ 组 会 中 的 第 二 个 我 字 和 后 而 通常 欢 有 非 代 字 
蔡 ，~ 使 用 上 几 -]-[^-]7 可 能 行 得 通 "。 芒 特 这 个 正则 表达 式 插 六 起 序 中 ， 并且 它 工作 
得 要 好 。{( 生 .R,]) 
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输出 药 条 日 中 .。 因此 我 们 用 从 进 制 来 表示 凤 号 的 ASCI 值 。(format,idx 程 序 将 反 转 
这 个 检 换 .) 


从 规则 4 开始， 我们 试图 识别 不 同 的 编码 条 日 一 一 为 用 户 提供 更 大 的 灵活 性 ， 然 
而， 为 了 使 程序 编写 更 容易 ， 我 们 必须 减少 到 几 种 基本 形式 。 


在 “基本 ”的 语法 中 , 主 关键 宇和 次 关键 字 用 留 号 分 隔 。 次 关键 字 和 第 三 关键 字 用 
分 号 分 卫 。 而 且 这 个 程序 也 允许 用 冒号 代替 分 号 , 作为 次 关键 字 和 第 三 关键 字 定 界 
符 。 如 果 没 有 将 冒号 指定 为 定 界 符 , 那么 也 可 以 用 逗号 作为 主 基 键 字 和 第 二 关键 字 
定 界 符 《 这 和 以 前 利用 逗号 作为 定 界 符 的 程序 是 兼容 的 )。 萎 数 sub0 查 找 行 中 的 第 
-个 逗号 并 将 它 改 为 冒号 。 这 个 规则 也 用 来 标准 化 “see” 和 “see also” 条 目 . 对 
于 用 冒号 分 隔 的 条 日 ,规则 4 将 期 除 冒 号 后 面 的 空格 。 所 有 的 这 些 工作 都 是 由 函数 
sub 妇 完成 的 。 


规则 5 处 理 “see also” 条 目 。 我 们 将 字符 串 “~zz” 附 加 到 “see also” 条 目 ， 因 此 
通过 排序 它们 将 被 排 在 次 关键 字 列 表 的 末端 . pagenums.iax 穆 序 在 管道 的 后 端 , 在 
条 目 被 排序 后 将 删除 “~?zz”。 


规则 6 匹配 惟有 指 定 页 更 葛 条 目 。 惟 一 没有 页 码 的 有 效 条 目 包 含 一 个 “sece” 引 用 。 
这 个 规则 输出 “see” 条 旦 且 在 末端 钦 加 “:”, 用 以 表示 第 三 个 字 忠 为 空 。 所 有 的 其 
他 条 目 由 国 数 printerrO 生 成 一 个 出 错 信息 。 这 个 函数 将 提示 用 户 特 殊 的 条 目 没 有 
包 售 页 码 ， 故 将 不 能 被 包含 在 输出 中 。 这 是 一 个 标准 化 给 人 的 方 靶 不 接受 不 
能 正确 解释 的 项 但 是 ， 通 知 用 户 使 他 或 她 能 更 正 条 目 是 很 重要 的 。 





规则 7 输出 包含 冒号 定 界 符 的 条 目 。 使 用 next 可 以 避免 到 达 规 则 8。 


最 后 ,规则 8 匹 儿 只 包 含 一 个 主 关键 字 的 条 目 。 换 名 话说 ， 也 就 是 没有 定 界 符 的 条 
目 。 我 们 输出 “;: ”来 表示 第 二 个 字段 为 空 。 


予 面 是 resr 文 件 内 容 的 -一 部分。 我 们 将 利用 它 来 后 成 本 节 的 例子 


汝 了 如 七 七 日 号 七 

XISW: RDOOEamS 工 II 七 BLITZaEiLOnm 45 
XU__INIT_ 上 RGS- ImacLIOo 呈 5 

以 W_ 站 二 j 和 CE ~EY 户 扬 冯 呈 

Xiw_ SimgTECO]CE-tYDe 总 [ 


Graphiecs: 18ee 有 18 马 Setwer magel) 


信 cx arrrr 一 -一 一 一 ”一 一 一 一 一 一 一 一- 





综合 应 用 四 


可 划 白 D CS ， 其 VEW ICOSL 唱 3 

其 商 jnaow SYysLenm: evcents 和 4 

可 工 昌 DPICB，CaNVES_ X_ EAITNT_ WTNEON 日 右 

关 Winacw SYSteC， 基 Winacw ID for BainE wznaow 87 
已 品 Kit 【See 藉 Wimaow SYSkem) ， 

导 工 和 让 hiICS : 【5 全 互 ] 台 口外 后 we mage) 

其 1 日 ，Tepairttirn 可 canwas 88 

凑巧 . 有 一 人 全 der 三 台电 


当 我 们 用 记 putjidx 来 运行 这 个 文件 时 ， 将 产生 和 如 下 结果 : 


汪 Lnpytat . 二 QUx 七 全 B 七 

XWViLSw:PrOSraImSs; imltT 问 虐 z 在 蕊 :On :由 5 

其 W_ INIT_ 和 RS TIRCTa 和 4 白 

SCF 台 :其 W_THNIT 有 全 呈 :人 

XTV_apJjeCct tyBe: :459 

LYDerXV_ DJ]Ect :于 包 

其 ws 站 避 1er 记 1Dr tyPe: :Rn 

十 YPE :其 V_ 器 眉 拉 CDYDTL GD 

六 工 站 Pi 们 马 一 忆 1SBe 再 BOD SETVEE 二 ma 二 所 ) : 
TaeEhics:XwIew mcae_ :日 3 

买 多 naow 生 YSt 人 mm: eVenES :让 4 

号 工 SBHhaCES :CRMNWVRS 其 EAITNT_ WINDO ;SS 

其 风 imaow SyetLeh :其 页-2nacw ID for Baint widewi87 
马 aRhics:~zzfSsse alSO servetr imaGel: 
其 ] 了 :epDainEin9 anYas :8 

基 ] 工 上 .上 i 也 所 a 忆 er 上 | 工人 刀 : :8 

用 折 aGeIT 于 Le: 买 2LDb.hz8gg 


每 个 项 包含 3 个 用 冒号 分 珊 的 宇 殿 .在 样本 输 用 中 ， 你 可 以 找到 只 有 一 个 主 关键 字 
的 条 目 , 包含 主 关键 字 和 次 鞠 链 字 的 条 目 . 以 及 那些 包含 主 、 次 和 第 二 关键 字 的 条 
目 。 也 可 以 找到 被 所 换 的 条 上 日、 重复 的 条 日 和 “see also” 条 目 。 





多 卷 的 条 目 在 输出 中 的 惟一 区 别 是 每 个 输出 条 目 带 有 包含 卷 标识 符 的 第 四 个 字段， 


对 条 目 排序 


现在 准备 对 inpat,idx 产 生 的 输出 进行 排序 .对 条 目 排 序 最 简单 的 方 靶 是 利用 标准 的 
UNIX sort 程 序 而 不 是 编写 个 自 定义 脚本 。 除 了 排序 外 ,我 们 希望 删除 所 有 的 重 
复 条 目 ， 这 里 使 用 uniqa 程序 来 完成 这 人 工作。 


下 面 是 贡 用 的 命令 行 : 


Sort -ba -t: + -1+1 -2 3 -4 +r2n -3n | unia 


”rr 一 -一 人 一 一 -- 一 -… 
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可 以 看 出 ,我 们 为 sort 命 令 设 置 些 选 项 。 第 “个 选项 为 -5, 表示 忽略 前 导 的 空格 。 
遂 项 -4 表示 按 字典 非 序 且 忽 赂 符 导 和 特殊 字符 。 选 项 -f 表 未 将 小 写字 母 和 大 与 字母 
可 放 在 - 起; 换 名 话说 ， 在 排序 中 它们 将 被 看 散 是 同一 个 字符 。 下 -个 参数 .# 可 能 
是 最 重要 的 , 世 告 诉 程序 在 排 岸 关 健 池 时 用 冒号 作为 字段 定 界 符 。 选项 “+ ”表示 从 
行 开 始 处 跌 过 的 字段 长。 因此， 我 们 用 “+0” 来 表示 排序 主 关 键 字 为 第 一 个 字段 。 
问 样 ， 用“-” 表 示 排 序 关 链 字 的 未 端 .“-1” 表 朱 排 序 主 关键 字 为 第 一 个 字段 的 末 
端 ， 或 第 一 个 字段 的 开始 。 第 二 个 字段 是 次 关键 字 。 如 果 第 四 个 字段 (+31) 存在 ， 
表 泵 告 续 。 排序 的 最 后 - 个 关键 字 是 页 码 ， 这 需要 使 用 数值 型 排序 (如果 我 们 没有 
告诉 sert 基 键 宝 数 值 型 的 ， 那 么 数字 1 后 面 将 跟随 10、 而 不 是 2)。 注意 , 我 们 在 
按 卷 号 排序 后 才 半 页 码 进 行 排序 。 因 此 , 第 1 着 的 所 有 上 抽 码 都 被 按 上 序 排列 ， 炭 后 
才 排 到 第 开卷 的 页 码 。 最 后 ， 我 们 将 输出 结果 由 管道 输送 给 unidg 来 剧 除 相同 的 条 
日， 处 理 来 自 和 pat.iqx 的 输出 ， 命 令 sort 的 结果 为 : 

SITaphics:Prauwvacs X ERTNT_WINDOW: 36 

区 卫 吕 提 了 和 有 区 WwW mLOOET + 是 

可 工 总 BhLCS: -ESee SOD Serwer 1mage) : 

也 己 误 GET 土 -- 马 : 买 ]b.n:89 

阁 己 忆 六 癌 :其 人 工 TI 了 站 民生 号: 辣 

ED XLS TSES 其 网 1mdow SVSLem) ，: 

PE 各 TIXV_DD]Jec :和 

本 YPe :区 v_ 呈 1ngTeco]cr:8T 

其 Winaqaow 3ywscemxrevrents:l 中 4 

WEnapw SYStem: 基 多 inqdow ID for paint winaow:a7 

LiDP3repatinting eamvas:88 

等 11 蔬 .h 了 已 aaQez 于 1 总 :日 号 

并 人世 折 日 Tam 吉 ;inializatiorm:45 

其 V_THNMIJ_ 请 RGS 市 aez 已 : :站 扣 

XV_DbJject 上 wp : :49 

其 W_ 号 工作 可 站 如 哲 ] ED 8 


处 理 页 码 


程序 Pagenums.iqx 用 地 查找 只 有 页 码 不 同 的 条 日 ， 并 为 每 个 条 目 生成 一 个 页 码 列 
表 。 这 个 程序 的 输入 是 用 冒号 分 隔 的 4 个 字段 


PRIMARY，SECONDARY: PAGE: VOLUME 


第 四 个 域 是 可 选 的 .型 在 ， 我 们 只 车 虑 单 本 书 的 索引 ， 因 此 没有 卷 号 。 注意 现在 条 
县 已 经 排 好 序 了 。 


综合 应 用 和 





这 个 程序 的 糖 心 是 将 当前 条 目 与 前 面 的 条 日 相 比较 并 决定 输出 那 一 个 .实现 比较 的 
条 件 可 以 提取 出 来 并 表示 成 如 下 的 伪 代 码 : 





PRIMRRY - S 
SECDNDARY = 扣 2 
PRSE =- 号 3 
【ERIMRRY -- DevSRITMA3Y1 
1 上 LSROnSDaRY == DTrewoFCONTDRYTI1 
BTIInL PaGE 
扎 1 33 扎 
BILEinE PRIMARY: SECROUPRARY :PRAGR 
呈 荆 S 己 
PTISL PRIMRARY SECONDARY > GPR 
PEeVPRIMRARY = FRIMaARY 
DIEVTSTECDONMDRARY = SECONDERY 


我 们 来 看 这 些 代码 如 何 处 理 一 系列 的 条 上 日， 首先 是 : 
Xwiewes :1 和 

主 关键 字 和 前 面 的 主 关键 宁 木 匹配， 将 按 下 面 形式 输出 行 : 
ionwrt 了 

下 一 个 条 目 是 ; 


刁 wIew : 己 Deout :3 


当 我 们 将 这 个 条 目的 主 关 键 字 和 前 面 一 个 相 比 较 时 ， 它 们 是 相同 的 。 当 比较 次 头 链 
字 时 ， 它 们 不 同 ， 我 们 输出 下 面 的 记录 : 


XYWYwTGW :Pout :了 
下 一 个 条 有 只是 : 
Xwiew:about :7 


因为 主 关 键 字 和 次 关键 字 都 和 前 面 的 条 有 中 相 匹 配 , 我 们 将 只 输出 页 码 .( 用 printtf 语 
句 代 趟 print 语 句 避 免 自 动 换 行 . ) 这 个 页 码 被 请 加 到 前 面 的 条 目 中 , 和 下 面 的 一 样 : 


XwIew:abDout :7 


下 - :个 条 目 也 和 两 个 关键 宇都 匹配 : 
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Xvwiew:apout :10 
髓 次 只 输出 页 把， 时 在 的 条 有 次 下 所 示 : 
Xwiewzabeour:3 10 


这 样 3 个 只 有 和 页码 不 同 的 条 上 日 将 被 合并 为 一 个 项 。 


在 完整 的 脚本 中 添加 一 个 附加 的 测试 , 来 确定 卷 的 标识 符 是 否 匹配 。 下 面 是 完 玫 的 


pagenianms,jdx 脚本 : 


坦 上 wwerg Dinermawk 一 

和 -一 一 一--=----- 一 -一 -----:，--------------_--- -~- -~ 
# Pagenums.13x -- 收集 相同 生日 的 页 而 

# 作者 :Dale Docougherty 

# 版 本 1.2 37510790 

提 

# 输 大 应该 中 ERIMRRT :SECDNDRRY :PRCE:VOLUME 


BEGITJ ;FS - "0 OFS =- 
时 让 俩 程 -- 应 用 汉 所 有 的 输入 行 


{ 

# 将 字段 赋 给 变量 
PRIMARY -= S1 
SECONDRARY - S2 
PAGE > S3 
VOLUME - S$4 


# 检查 See AL1so 条 目 开 收集 到 数组 中 
【SECONDARY ~ /ESS]ee | [anal1so57) 
# 创建 临时 间 本 井 将 "~zz" 具 副 本 中 除去 
tmPaeconaary = SECCNECRRY 


subi“ ~zzvi[Ss]ee +[aal1so *7， "bmpSecondary) 


Eupbirjsy nr tmnpSecendqary) 
+ 删除 带 有 “-=z* 的 次 关公 字 


SI1 和 2 [SE]e 拓 +[ 肪 二] 8 全 


SuUDfAsr ”SECONDRRY)》 
# 茹 seealsoList 的 下 -个 元 素 赋值 


3 全 会 S 记 世 SC [++ 所 BChSeeAlLSsO] =- SECDNDRRY 


BRIEVErimary = PRIM 真 RR 

# 将 副本 赋值 给 前 一 个 次 关 健 字 
PrzevSecondery = tmpoeconaay 
mexL 

}# see alLsoD 测试 结束 


上 比较 当前 记录 和 上 :条 记录 的 关键 字 的 
# 条 件 。 如 果 芋 键 宁 和 次 关键 字 相 同 ， 那 么 只 


， SECONDPRRY) 
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上 打印 页 胡 


+ 测试 是 个 簿 个 PRTMARY 关键 字 与 上 一 个 关键 学 雹 乱 
IT 【PRIMARY == PEGwvPrimary) 
+ 和 测 试 是 否 伍 个 SECDNDaARY 关 甸 宁 与 一 个 美 押 衬 此 配 
二 TSEDONDaRY == 站 上 BBseeonaatry) 
# 宙 谍 wCODUME 是 向 瑟 本 
有 打印 OLDUOME: PAGE 
1E 1VOLUME == 上 zevwwolusneh 
PTimLE 1" ， 甸 8 ， PaAGEI) 
局 LSE 
FIEmLE 人 
TOlPageftwDLUME ， SaCGE) 
] 
所 上 Se 已 
# 刘 果 有 See alL1ses 数组 ， 则 输出 
ii 【eaChSee 上 15D) Du 上 PPUSEeaTSoDf21) 
# 打印 FRIMaRY : SECONDaRY :VOLLME :PRGE 
PiIntE 【 "sn 杀 S :证 = PRIMRRY ，SECONDRRY) 
volpPage VDLUME ， FARGE 





上 
}# 完成 PRIMARY==Prev 的 出 试 
它 LESe {# PRTMRRY 1! = Drev 
上 如果 有 See &1sos 数 组 ， 则 输出 
让 【eachSeeRal13ON DurpurSeea2 scflL1 
ER ! 1 
PEInLtE 177 
ji INME == 1) 
Primt 于 《和 5 "， 避 D) 


了 

侣 -号 全 二 
RiLRLE ( "和 3 和 6" ， ERIRMARY，SECONDRRY) 
w 白 LPaGe itVOLUME ,CRR) 

】 


】 

PEevPrInmaryr = PRIMARY 
PEeVvSeeconaary = SFCONDRARY 
ioFewvolume = VOLUME 


1 # 主 例 程 结 束 


# 其 后 ， 打 印 一 个 新 行 
END 1{ 
# 基 后 -个 条 目 有 “see ALso” 的 情况 
工 土 【各 总 睛 Seea SR) CutBPULCSEeea1SCDIL) 
BEImzEI nr" 





] 


# outputSeeaiso 国 数 -- 麟 出 seealsoList 的 元 素 
EuncEID CULPUtSeenh1LsGITLEVEL) 二 

# LE7EL - 表示 用 个 关键 衬 诡 归 输 出 

1Lt TDEVEL ==- 1) 
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BTImEz 二" 芒 $ 和 :19Ee 已 L3 DevPTimaTYy} 
局 1Se 了 

SU rr ”BrevSecondary) 

PTjTnEE { ngSIS8S: 13See 虽 LBO "，DPzevErimaryr，DrewvSeponrlary) 
SGUDPI 上 1” 和 全 有 LiSL 【eaChSeeRLEo ] 1 


or 人 =13 二 <= 所 ahSeealSDi ++) 
DLInLE 【" 争 8" 。 SeAlsoDist[L]l) 
己 己 习 DSS 全 全 上 SU = 日 
】 


# volpage 随 数 - 晴 定 是 否 撕 印 卷 信息 
# 出 念 参数 :着 和 页 


EUnRCtIOnm wD]DaGeTv，DD) 
ff 
# 如 果 VOLUME 是 呈 则 有 具 打印 PaGE 
IE tw == "") 
BFIntETE 【7" 生 S"，B) 
们 1 高 己 
# 否则 打印 wGTUKE*PaGE 
PIT 七 夺 站 "名 所” 昌 S"，Y， 折 ) 
】} 


注意 , 首先 程序 的 输入 应 该 已 经 按 关键 字 排 序 . 页 码 也 是 有 顺序 的 ,因此 在 输入 中 
第 ? 页 上 的 条 目 “graphics” 将 出 现在 第 10 页 上 的 这 个 条 日 的 前 面 。 同 样 ， 第 一 着 
的 条 目 将 出 现在 第 二 卷 的 条 月 前 面 , 因此 ,这 个 程序 林 需 要 处 理 排序 ; 它 只 是 简单 
地 比较 关键 字 ， 如 果 它 们 相同 ， 将 相应 的 页 码 加 和 到 一 个 列表 中 。 用 这 个 方 靶 可 以 
减少 条 月。 


这 个 脚 林 也 可 坟 处 理 “see also” 条 目 。 因 为 这 些 记 录 已 经 被 排 序 ， 所 以 可 以 删除 特 
殊 的 排序 序列 “~zz”"。 我 们 还 处 理 了 还 到 连续 的 “see also” 条 目的 情况 。 我 们 不 
希望 输 山 : 


TOCLKiLL 【See aa XL) See 81LSD XViewl (See alsc Motih . 


而 我 们 希望 像 下 面 所 示 的 那样 ， 将 它们 组 合并 放 到 一 个 列表 中 : 


TeetKIE (13ee 已 15D XC7 YXwiewi MDEif) 。 


弗 完 成 这 一 功能 , 我 们 创建 了 名 为 seeAlsoList 的 数组 。 从 SECONDARY 开始 删除 
圆 揪 号 ， 次 关键 字 【如 果 存 在 ) 和 “see also" ， 然 后 将 它 赋 给 see&lsoList 的 一 个 
元 素 . 我 们 对 SECONDARY 中 的 次 关键 字 做 备份 , 并 将 它 赋 给 brevSecondary , [以 
便 和 下 个 条 目 比 较 。 
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调用 数 ontputSeeAlso0) 来 读 取 这 个 数组 的 所 有 元 素 并 打印 它们 。 畏 数 volpageO 
用 二 确定 是 查 咒 昌 输 出 卷 号 。 这 两 个 函数 在 程序 代码 中 不 止 一 个 地 方 被 调用 , 因此 
将 它们 定 光 为 明 数 的 主要 原因 是 为 了 减少 重复 。 


下 面 古 - -个 处 奸 单 本 书 索引 的 结果 : 


其 网 品 忆 富 呈 YS em: 基 工 世 : 右 

XFOnLSLECCt SCFOCLJITeI 317 

XLiEp: :6 

其 1 工 已 DR 二 Int 1 各 位 让 naSzB 

XLIP.h heaqQeT + 夺 ile: :89,294 

XUw_Femt 1LyP 名 :3310 

YVwaew: :名 

Xwiew:akcut 37，1L0 

XIew:E DPIeCcL-oLITLIenEed SYSEem: 了 JI 


下 上 面 是 一 个 处 理 主 索 引 所 产生 的 结果 ; 


工 忆 SETWVed TaInes :七 中 D1 吕 已 丰 : 工 ^ 生 3 

&L :exXeamnpJE Di BITOorarrmln 扣 1 工 DterEace: TI“dd 55 
其 LObJjeetSsy TtSst 吕 f: 工 > 由 村 ,5 帮工 工 * 生 吕 

买 七 ;区号 侣 基站 林 所 急 : 工 “由 3 五 ] ; 工 工 42 

人 七 ;吓人 FaImms; InILIaLizaLiorm:I" 盖 5 

多 上 YeSerweo TaImeS3TT*43 3 

从 上; 全 中 全 Fw 本 LeEIxes:I^43，58 

其 巧 :EYEBes: 工 443，54 5] 


符号 “*” 作 为 卷 号 和 页 码 列表 之 间 的 临时 定 界 符 。 


合并 具有 相同 关键 字 的 条 目 


程序 pagenums.idx 减 少 了 一 些 条 目 . 这 些 条 时 除了 页 码 外 都 是 相同 的 . 现在 我 们 将 
处 理 有 相同 主 英 键 字 的 条 目 ,我 们 还 希望 查找 连续 的 页 码 并 将 它们 合并 为 一 个 范围 。 


程序 comhbine,iax 和 Pagenumas.idx 根 相像 ， 它 对 索引 来 进行 另 一 次 扫描 , 比较 主 关 
备 字 相同 的 条 目 。 下面 的 的 代码 抽象 了 这 个 比较 (为 了 使 问题 更 简单 ,我 们 将 忽略 
第 三 关键 宇 , 而 只 显示 如 何 比较 主 关键 字 和 次 关键 字 )。 当 pagenums.idx 处 理 完 所 
有 条 目 时 , 则 不 存在 主 关键 宇和 次 关键 宇都 相同 的 两 个 条 目 。 困 此 ， 我们 不 必 比 较 
次 关键 字 。 


PRIMRARY - 号 1 
SECONDRART = 52 
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baCE = 3 
1 PRIMARY == BRrevPRIMRARY) 
Prinr :SECONDaRYT : 
总 台 合 
PEI2nE PRIYRRY:SECONDRRY 
PIGVPRIMRRKY = 了 RTMRARY 
BYrevSECDNDaRY = EC 所 NDSaRY 


如 果 主 关键 衬 匹 瑟 ， 我 们 将 只 输出 次 关键 字 。 例 如 ， 如 果 有 下 面 的 3 个 条 月 : 


XwLEWw : 工 8 
届 View:about: 3， 了 ，1 
XIBW:8aE Db- eet-crienteo sygsLem:l7 


它们 将 按 下 面 的 方式 输出 : 


XVIEW: -二 呈 
:BuUT :3 了， 了 
:有 S 全 站 ] 也 袜 七 -ITIEnmEEG SYSLerm 了 


当主 关键 字 相 同时 可 以 将 它们 删除 。 实 际 代码 要 更 复杂 一 些 , 办 为 包含 了 第 三 关键 
字 。 我 们 必须 帮 试 主 关 键 宇和 次 关键 字 来 看 它们 是 否 惟一 或 相同 , 而 不 必 恶 试 第 三 
关键 字 《 我 们 上 共 需 要 知道 它 存在 )。 


你 将 福 意 到 上 面 的 集 代 码 役 有 输出 页 码 。 这 个 脚本 的 第 二 个 作用 就 是 检查 页 码 , 并 
将 连续 的 员 码 合并 到 一 个 列表 .由 喜 号 分 隔 的 页 码 列表 可 以 用 split0 国 数 将 它们 输 
人 到 一 个 数组 中 。 


要 检查 页 码 是 否 连 续 ,， 我 们 可 以 遍历 数组 ,并 将 其 中 的 每 个 元 素 与 它 前 面 的 元 素 加 
1 的 结果 相 比较 。 


所 主 ChPage[]j-li]+l =- 号 ChPagsfjl] 


换 名 话说 就 是 ， 如 果 前 面 的 元 素 加 1 后 得 到 当前 的 元 素 ， 那 么 它们 是 连续 的 。 前 面 
一 个 无 束 成 为 这 个 范围 中 的 第 一 个 页 码 而 当前 元 素 成 为 最 后 一 个 页 码 。 这 是 在 while 
循 中 处 理 的 ,直到 循 东 条 件 为 假 . 上 且 页 码 不 连续 。 然 后 我 们 输出 用 连 字符 分 陋 的 
第 一 个 页 码 和 最 后 一 个 页 码 : 


23-25 


实际 代码 比 这 更 复杂 , 因为 要 从 “个 图 数 中 调用 它 并 则 识别 卷 和 页 码 对 ,首先 必须 
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将 卷 号 从 页 码 列 表 中 分 离 出 来 然后 道 过 调用 国 数 《rangeOfPages0O 1 来 处 理 页 码 
列表 。 


下 面 是 程序 combine.idx 的 完整 代码 : 


提 warKky DLLm7Iawk -于 

并 ---------------~--------------------------------_-_-- 
# Comblne .1Gx -- 合 片 相同 的 FRIMARY 关 钠 守 并 人 台 并 这 续 的 页 号 
+ 必 才 :Dale Doughercy 

旧版 想 1.1 7 了 0790 





## 

# 输 人 应 该 是 PRTMaRY: SECONPaRY :PAGELIST 

井 ------------------------_-----_-~-_---_-_-_-_-_-_-_-_-_-- -~--- - 
BEGIN 1 FS -7 DFTS 90 


# 士 俩 释 应 咱 于 所 有 的 输 和 行 
+ ”比较 关键 字 半 合计 重复 项 。 


{ 
# 指定 第 “个 字段 
所 人民 TR = 可] 
# 分 高 第 :个 字段 .取得 SEC 和 TERT 美 健 字 
号 二 芝 e 吕 于 AAAFTBY = SP1LI 1 SS3 ErTaY， "7 
SECONDRaRY = arrayr [1 
TRRTIARY = 站 rrayr[23] 
# 币 试 第 一 关键 字 是 否 存 在 
【号 iLZeCOfarrayr > 1 二 
# 存在 第 一 关键 宇 
JSTectLIary = 1 
# “;: ”二 能 出 现 的 两 种 情况 
# 检查 SEC 关键 字 是 天 是“ see alsc” 
LE SECONDARY ~ ATIsS]ee 忆 Lsor) 1 
SECDNDRRY = S2 
工 上 了 Grt1Rrw = 日 


】 
# 检查 TERT 基 健 衬 是 否 起 “see aaLso" 
IE 《TERTIARY ~ ATI[SS ]ee LSO7) 1 
TERTIARY =<SUDstrIs2，TinaexiISs2， 9) + 1) 
} 
了 
else # 第 “关键 字 不 存在 
工 汪 Tertary = 了 由 
# 委 第 个 字 展 赋值 
BRGELIST -= 3 
# 化 较 这 个 条 日 和 上 一 个 条 目的 主 和 关键 子 ， 手 
# 后 比较 次 关键 宁 ， 确 定 输出 于 个 不 重复 的 
# 关键 字 
IE 1PRIMaRY == IPTrevPrLImary) 1 
工 王 人 全 TeTtiary ESSECDNDARY == DrevSeconaary) 
BincE (人 :ni 呈 S5"，TERTIARYI 
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所 二 号 马 
IE (SSert1Lary1 
PEiTE+ 【LS 和， SEONPRARY，TERIIRARY) 
户 1S 马 
PIiInEE "nz 和" SECONDARY) 
了 
已 5S 忆 革 
If INR != 1) 
开工 1TELEE 《1) 
IE 1S2 5 
BID 【" 史 且 :S， ， PRIMARY， 少 2) 
所 Se 
BrimntE 【 "和 8 PRIMARY' 
区 FevPrimary = PRIMARY 
】 


PEBEEVSECOnaasary = SECONDRRY 
} # 主 例 称 结 束 


# “See" 条 日 的 例 程 【只 在 主 关 键 字 中 山 现 ) 
NF == 1 TPRrinti ny 】 





# 所 有 其 他 条 日 的 例 称 
# ”处 理 页 码 的 输出 。 


NMF > 1 { 
工 芷 【了 名 后 忆 工 号 工 )} 
# 调用 numrange (1 查找 连续 的 页 倘 
坷 初 2nSecutIwe Pade mumPers . 
瑟 工 ImEE "本 5 ， TUumzanE lf 3aGRDLTST) ) 
已 工 台所 
让 【emTertiary | | (PERTIARY & SECONDRARY) ) PrintE 13 
?# NE > 工 纤 东 


寺 END 过 程 输出 新 行 
END { Printt (sn ) 了 


# 支持 荔 数 

# mumrange -- 读 取 Volume^Page 号 码 询 表 ,对 上 每 一 套 ， 将 着 导 从 页 码 中 去 掉 ， 
井 调用 rangepfPages 钥 洛 列 表 中 的 连续 页 咖 

提 Paoas = 用 分 号 分 始 的 着 号 用“ 分隔 的 着 导 和 杏 页 码 

于 DC 廿 工 避 写 让 DT 站 也 二 马 ， PC ， 卫 主 外 凸 丫 上 上 让 二 要 已 昌 ，。 握 工 Z 忆 中 于 入 工 aY) 

ff 


# 相 据 votune 分 开 列 表 

号 诗 世 和 站 人 TBY = SPTitiEAGE，homwManywVelLumes，" rn" 
# 检查 是 从 多 于 1 工 个 volume 

荆 E 《SizeOtarTayr > 1) 全， 


# 如 果 多 十 1 个 ， 则 示 历 列表 
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Eer 1 = 开工 < 号 于 马 OfRrTYaYT ++L) T 
上 财 短 个 volme*page 元 末 ， 除 去 velLLme 
上 并 调用 rangecfpages 国 数 去 分 由 页 码 
上 并且 比较 发 现 连 续 
# 的 页 码 
了 【名 他 1 《ROWMHSTYWCO] uneS[I] ， VPRE 包 和 A"]】 == 2 
TS5OftPaqes = VDLPage[1] '" 
工时 所 扣 下 Pa 可 拓 (wwDLPaS 台 [23]) 
上 收集 1zsboiEages 的 辖 出 
ii fi e= 1 
工 人 SU] 七 = 下 诗 号 七 口 直 BBC 扎 E 
已 TS 已 
result=resulLt "7 ”1st 包 ffPageS 


)}# 循 坏 结束 


了 
else {# 不 多 于 工 个 着 


# 验 查 是 否 有 带 有 着 导 的 索引 3 
# 刀 果 有 ， 则 去 捧 卷 导 。 
# 调用 rangeOtPages 处 理 页 码 列表 。 
工 丰 【所 巴 本 工 上 【 FGR VOLEPSGeE "2 "1 == ] 
# 如 果 是 vel:me*Page, 去 掉 veclime 狼 后 调用 rargsDtFages 
jiestCtEages = volLRags[1] " "rangeofFages (wolPage [3]) 
else 役 有 页 攀 
] 工 训 上 站 上 上 PsSeE =- IamgeotPagcesiwvolPage[1]1) 
工 全 SUTL = 工 工 S 站 于 入 忆 可 所 日 
} 亲 e1se 姑 束 


上 皇上 LUETI TeSult # VolumenEace 列表 


}# numrange 拉 数 结束 


# rangeDfpages -- 读本 用 喜 导 分 友 的 页 码 列表 ， 写 人 到 数组 中 . 
间 并 将 每 一 个 与 下 个 比较 ， 查 找 

# 连续 页 码 

非 PAGENUMBERS 逗号 分 师 的 页 码 列表 


Eunctieon zangeOfPages PhAGPNUMBERS，DbagesAa11，sizeDFATrLrayr，Dpadges， 
TiStoTPages， 妃 ，P，] 了 ) 1{ 
# 在 txzoff 牛 成 的 交 匿 内 革 闭 空格 
吕 SUD1A - 7”， "PAGENUMEERS) 


# 将 列表 分 解 到 eachpage 数组 中 
S 主 已 口 二 YTay = SP1LiIt(PRGENUMBERS，eac3Page，。 9 
# 如 果 多 二 1 工 个 页 码 
【SIzeOtAarcay > 1] 1 
# 每 个 页 色 和 前 一 个 加 工 比 以 
D = 0 # 研 值 给 bagesal1l 的 标志 
# 从 2 开始 循环 
sor (= 2 了 -1 <= SizeOfarravyvy ++j) 【 


# 从 在 序列 中 保存 的 第 一 页 开始 { ftrstPage+ 





+ 并 季 坏 公 找 到 的 基 后 一 页 《1astPagel 
frgstpage = eachpPage [J-11] 
本 = 遇 间 上 LaS iTIG Ca 二 eS COmEecttIwe munberSs 上 ourd 
# 当 页 镶 连 续 肝 执行 希 坏 
whi]e (cachpage[j-1I]+1) -eachPage[J] | 
台电 中 全 避 吕 人 [jj 
# 从 treEE 朱 成 范围 中 出 除 “-” 
1 Teac9page ]] ~ 2 工 
SUB "eachnpageI.) 


1accpPase =- eachPpage[J] 
# 增 如 计数 器 
1 对 
++1i 
}# 循环 结束 
# 用 第 页 和 | 喜 后 -页 的 值 作为 范 财 
if ta >== 1) 
# 有 范围 
古 六 何 自 号 = 王 工 匡 虽 证 弟 二 可 “一 "as 上 下 避 可 忆 
} 
else # 罕有 范围 ,只 读 取 第 一 页 
DagesS =- 上 IISt 呈 可 忆 
# 特 范 围 赋 给 pasesal11 
iT ID -= ) 1 
站 己 可 eg 并 = BaGeS5 

















了 = 工 
】 
全 LS 人 
卫 引 SS5SRL 工 = 站 3 宁 折 SAL 上 "，"， 乳 ESeS 
和 
}# 循 坏 结束 


井 将 pagesall 峙 给 1isbOFPpages 
了 工 急 上台 于 下 己 可 全 B = 弟 且 全 8 六] 


} 夺 gize0Otarray >1 结 来 


else # 具有 -页 
SOEPages = PaCGENUMEBERS 


# 在 遥 号 过 后 增加 空格 
9SuUP1IA ”19LCEBaSeS) 
# 返回 改变 的 页 友 别 表 


FetUrn TISOTPSSes 
*# TangeoOfpPages 国 数 结 束 


这 个 脚本 包括 很 短 的 BEGIN 和 END 过 程 ， 主 例 程 用 于 比较 主 关键 宇和 次 关键 字 。 
这 个 例 程 的 第 - -部 分 将 字段 研 给 变量 。 第 一 个 字段 包含 次 关键 字 和 第 三 关键 字 , 我 
们 使 用 splitO 分 虞 它们 。 然 后 我 们 测试 第 二 关键 字 是 否 存在 并 设置 标志 isggertiayy 


为 1 或 0。 





主 过 程 的 下 “部 分 包含 用 于 查找 相同 关键 字 的 条 件 表 达 式 。 和 我 们 在 讨论 伪 代 码 时 
对 这 个 例 程 的 本 部 分 介绍 的 一 样 , 基 有 完全 相同 关键 字 的 条 上 日 已 经 被 pagenums.idgx 
删除 . 


这 个 过 程 中 的 条 件 根据 每 个 关键 字 是 否 惟一 来 决定 输出 什么 样 的 内 容 . 如 果 主 基体 
字 是 惟一 的 ， 那 么 连同 条 日 中 余下 的 部 分 :起 和 输出。 如果 主 关 键 宇和 前 面 的 丐 配 ， 
则 比较 次 关键 宇 。 如 果 次 关键 字 是 惟一 的 ， 那 么 连同 条 目 中 余下 的 部 分 一 起 输出 。 
如 有 果 主 关键 字 和 前 面 的 关键 字 匹 配 ， 亨 且 次 关键 字 和 前面 的 次 关键 字 匹 配 , 那么 第 
三 关键 字 必 须 是 惟 的 那么 我 们 只 输出 第 三 关键 宇 ， 主 关键 字 和 次 关 刍 字 为 空 。 

















下 面 列 出 了 不 同 的 形成 : 


主 革 键 字 

主 关 键 字 :次 关键 字 

:次 关键 字 

:人 关 键 字 :第 三 关键 字 
:第 三 关键 字 

主 关 键 字 :次 关键 字 : 第 二 关键 字 


主 过 程 后 面 跟着 遇 个 附加 程序 。 第 一 个 只 有 在 NF 等 于 1 时 才 执 行 。 它 处 理 以 上 列 
者 中 的 第 一 种 形式 。 也 就 是 说 ， 因 为 没有 页 码 ， 所 以 必须 输出 换行 符 来 完成 输 人 。 


第 二 个 过 程 处 理 所 有 有 页 码 的 条 目 。 在 这 个 过 程 中 我 们 调用 一 个 函数 将 页 码 列 表 株 
开 并 导 搜 连续 的 丰 。 它 还 调用 罗 数 numrange()， 该 国 数 的 主要 目的 是 处 理 多 卷 素 
引 ， 这 里 的 页 码 列 表 如 下 所 未 : 


T*35.55:， IIn200 


这 个 函数 调用 split0O) 并 利用 一 个 分 号 作为 定 界 符 来 分 贤 每 个 着 。 热 后 我 们 调用 
sBlitO 利 用 “^” 作 为 定 界 符 将 着 号 从 页 码 列表 中 分 离开 。 一 下 有 了 这 全 页 码 列表 ， 
我 们 将 调用 第 二 个 困 数 rangeOfPages0 来 查找 连续 的 页 码 , 对 于 单 本 书 的 索引 , 如 
本 章 所 给 出 的 样本 例子 ,函数 numrangef) 没 有 租 任 何事 ， 只 是 调用 了 rangeOf- 
Pages0O 范 数 。 我 们 在 前 面 讨论 过 函数 rangeOfPages0 的 主要 内 容 .创建 了 eachpage 
数组 并 利用 while 循环 访问 这 个 数组 来 与 前 一 个 的 元 囊 相 岂 较 。 这 个 函数 返回 页 码 
的 列表 。 
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这 个 程序 的 样本 输出 如 下 所 示 : 


和 LID : 右 

:FEa1nT imS Camuwasz 吕 8 
Xib.h header file:89，234 
Xuw_EFECRE FEVWRe :31 
VIEW: 1 

:abouti3，7 了 7，10 

;总 SOP]Ject 2rLEnteaG SYSEemi17 
:CoDttp1I1Lin9 PEIOSEamS5 :41 
:Coneept 上 ti winmaews diEffers from 和 :25 
;可 如 二 下 七 Y 世 当 } 上 有 本 忆 主 ;20 

:已 XLS DEFE ICSgTarmming nterEace :dd 
# 二 开局 TI 呈 呈 忆 了 岂 三 让 电 上 TameS: 训 
;GeTeLrIC EuncEions :人 1 
:Gereric SbJect:I8。34 

:了 工 世 ra eS 1 

下 口 二 计 主 CaLIOm: TD，35 
:DbpJerntszs33-347 

3 二 DIE cD 革 :过 D; 

:11ISt 叫 丰 :43 

PaCKadEBS :13，43 

: 折 T 口 吕 TaInIEIET SITn 吕 和 1 1 了 -了 3 
:iDSITarrmnlmS Tertace: 41 
:PIOGIams; initializatiocn:45 
: 工 记号 全 芽 V 司 可 站 六 扣 所 总 : 由 了 

1 工 导 S 和 TVEO BTeEILXBS :二 了 
:SCTUCLUIT 记 2 PR1Licaticns:d1 
:9Ubwrlnaows :了 2 

;4YDBS :43 

:Window obP]jects :2S5 


要 特 别 注 意 在 “XView” 下 的 “对 象 "。 这 是 一 个 有 多 个 第 三 关键 字 和 次 关键 字 的 例 
耶 。 它 也 是 有 连续 页 码 范围 的 条 目的 一 个 例子 。 


格式 化 索引 


前 面 的 脚本 儿 乎 完成 了 所 有 的 处 理 ， 并 给 一 了 有 序 的 输入 记录 的 列表 。formatidx 
脚本 或 许 是 最 简单 的 肢 本 , 读 取 输 入 记录 的 列表 被 生成 两 个 格式 不 癌 的 报告 ， 一 个 
显示 在 终端 屏 帮 上 , 一 个 被 输送 到 troff 利 用 激光 打印 机 打印 .惟一 的 问题 是 我 们 要 
输出 的 条 目 需要 依据 字母 表 的 字母 来 分 给 。 


用 命令 行 参数 设置 变量 FMY 来 确定 采用 吾 种 输出 格式 。 


下 面 是 format.igxz 的 完整 程序 : 
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fcznmac.idx -- 准备 格式 化 索引 
忻 者 :Dale Deugherf+ry 
版 本 1.1 3710790 


做 数 为 : ”FMT - 0 屏 舟 格式 【默认 值 } 
FMT = 1 trott 宏 输出 


提 

玫 

# 

提 

f# 输入 谋 瑚 是 FEIMaRY :SECONDART :PaCE:YwCOLUME 
非 

提 

提 MacoIR = 尝 引 troff 宏文 件 的 路 径 各 


# ----------------------------------------------_- 
BEGIN 了 FS = 2" 
USDDPer = “BCDPEFOSHIJKXK-HNHNODOPORSTUWWXYTZ1 
Jower =- "abeaeftghi 了 jykLmnoPedrseuww3xyzn" 
】} 


# 如 昌 是 Eroft FMT、 输 出 霹 始 宏 
JR >=- ] & FMT -= 工 
1 (MaCDIR) 


PrantE 【"” .8 二 入 Binaexmacsvnm"，MaACDIRI 


号 ] 写 包 
PERntE 【5D imasxmacs YE) 
FintE fr.ge vonwnTnaexy nn) 
RiIntt (人 ".XC nm" 
} 才 NHK == 工 结束 


# 主 例 各 一 应 用 于 所 有 的 行 
# 决定 输出 旦 个 字段 


{ 
# 将 八进制 冒号 转换 成 “字面 ” 租 号 
# 对 每 个 宁 段 进行 厅 换 ， 不 是 s0， 所 以 字段 洽 有 被 分 开 
SSUPIAAT727， "111 
本 Sub 72， "2 
对 Supfiywvs7ar 3， 营 3) 


# 将 字段 骸 给 变 营 
ERIMPRY = 中 
SECOMDRRY = 
TERTIRRY = 
PRAGBE -= 3 了 
if (NE -= 2 1 

SECONDRRY -= “， 
ERAGE -= 字 2 


8 了 2 


} 
# 查 找 训 字 眉 并 决 定 答 出 什么 
让 【!PRIMARY) 1 
IE 【1SECONDRARY) 1 
TERTIARY = 5S3 
ERGE = S4 
iT (FME -= 1) 


PTTImEE 【《".XPF 了 信 " 生 ERTIRY) 


已 1 呈 已 


一 一 一 一 一- 一 -一 一 一 一 一 一 一- 


346 第 十 二 章 





PrintTf 【本 6 ，TERTIRARYI) 
工 
台 ] 号 全 
1 IEMT == 1 
PIITHT 【NXP 过 SCONTDASRY 
全 ] 8 后 
PEIEtf 【1 w57， SECDONEaRY1) 
】 
else {# 如 果 主 条 目 存 齐 
共 提取 主 条 日 中 的 第 一 个 字符 
夺 irSstehar = SUbSEE [SS，1， 了 1) 
# 看 看 它 是 否 是 小 写 的 字符 叫 
Char = 1ndexi lower，ftirstonhat) 
# _ char 是 小 写 或 大 把 字 峡 的 索引 
IE fcbhar -= 0 (人 
# 妇 昌 役 有 找到 shar ， 香 看 是 天 为 大 写字 入 


Char = iD9exiupper，EzTrRkCnar) 





if fenhar == D) 
CaL = 巴 cevCliaI 
了 
# 如 果 是 新 的 char ， 就 上 组 到 字 上 丹 表 的 新 字母 
1 techar != Prereharii 


iT IFMT -=- 1) 

Erintt .下 YA BubstrfoDeer， char， 1 
他 二 如 所 

BrimEET nrvc 和 SAT" SUbStTILEPer ，char，1)1 
PIRAVChar = Shar 


了 
# 现存 输出 主要 的 和 风 鉴 的 笋 日 
if {FMT == 1) 
E 《SECONDRARY) 
FIEintEt 1 .FE 1 18Ss AVI 名 TRY， SECCNTRARY) 
会 荆 吕 六 
BrintE (".XEF 1 本 SEA VBPRIMRRYI 
全 二 扣 己 
E (SECONDbaRY) 
HEImLE | "和 各， 和 SS， PRIMARY， 三 BCGHJDRY) 
全 】 吕 所 
Printf 1 "多 SS PRIMARY 


} 
# 如果 让 页 码 ， 则 调用 pagechg 
# 将 “” 换 成 “ 
工 【RE 
1f YEFMT -=- 1) 
+ 在 belad 条 电 后 首 如 中 市 的 进 导 
IE 1 SECONDaKY 上 5 1 TERTIARYI 
站 TimLT 1 和 3 1 区 南宫 全 h 可 【PR&GE)1 
它 】 己 
BTIRLtE (1 ，8s "pagech 可 lpPAGEI]) 


BELSC 
六 FinEE 1， 年 S"， PageCho(EaGE) 
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二 LS it 1F -- 外 
ETmsfioy 1 


DLIELEE 【1 
下 过程 丫 桌 
升 支持 将 娄 
FEagecng -- 将 volunes*page 中 的“ ” 转 摘 兢 “” 
此 站 [全 TDaGE_T5L -JIS5E 2 muumnpeT 呈 


于 UDC 上 LO PaaGeCeh 可 (Daoe iot 
SEEublcvay "1 PageclLLsc) 
if EM -= 1 
本 SBSJD1 [1- 币 ] -wy ”下 匡 吕 "请 冯 本 LSE) 
可 总 JDT 1” 蝗 本 RLISS1 
} 


FeTrtrmD 交 aGelL1LST 
} 寺 “Bageche 亲 数 结束 


BEGIN 过 程 定 义 字 段 分 隔 符 和 字符 串 upper 与 Iower。 下 一 个 过 程 输出 了 文件 名 ， 
这 个 文件 中 包含 troff 索 引 宏 的 定式 。 宏 日 孙 的 名 字 可 以 作为 命令 行 的 第 二 个 参数 来 
设置 。 


主 过 程 在 开头 将 “路 含 的 ” 填 号 改 用 字画 .FE 的 冒号 。 注 态 ， 我 们 应 用 gsuhbO 国 数 来 
处 理 每 个 字 委 两 不 是 处 理 整 个 行 , 因为 后 者 将 会 引起 对 当前 行 再 次 求 慎 ， 而 且 字 段 
的 当前 舌 序 将 被 打 乱 。 


下 一 步 我 们 将 字段 荆 给 变量 ， 然 后 钢 试 字段 是 否 为 空 。 如 果 主 革 键 字 没 有 定 允 ， 则 
检测 次 关键 字 是 否 被 定 又 。 如 果 是 ， 则 将 它 输出 否则 输出 第 三 关键 字 。 如 果 主 英 
键 字 搜 定义 ， 那 么 我 们 提取 它 的 第 一 个 字符 并 观察 它 是 否 是 在 字符 串 iower 中 。 
firectenar - SuUbsrrrs1l ,1，11) 
全 用 总 并 站 本 息 式 1 上 Ger。， 于 奔 芝 SEC 本 二 
char 赛 基 包含 字 尽 在 字符 串 中 的 位 置 。 如 果 这 个 数字 大 于 或 等 于 1， 那 么 我 们 也 将 
“个 索引 加 和 到 upper 了 字符 串 中 .。 我 们 比较 每 个 条 目 并 当 ehar 和 PrevChar 相 同时 ， 


字母 表 中 的 当前 字 县 保持 不 变 。 如 果 不 同 ， 我 们 首先 检查 upper 字符 串 中 的 字母 。 
如 果 char 是 新 字母 ， 我 们 输出 中 间 的 字符 申 ， 它 用 于 标识 字母 玫 中 的 字 是 。 
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然后 我 们 观察 输出 的 主 关键 字 和 次 关键 字条 目 。 最 后 ， 在 调用 国 数 pageChgO 国 数 
用 冒号 代替 在 卷 - 页 强 用 中 的 “*” 后 ， 和 输出 真 但 的 列表 。 


由 format'igx 产生 的 ， 输 出 到 屏幕 上 的 样本 如 下 所 示 ; 


也 
节 PTOEOCC]， 三 
区 WILLRQDW SYS 七 名 TI 所 w 所 记 二 当日 业 
已 次 EEn 扫 并 志 二 站 ， 日 
InteTC] IEnt Crmmumicaatrors，9 
Derwiew 3 
DELEOCceL， 王 
贡 台 站 已 折 下 Wew 本 amagSr， 电 
号 忆 we 五 ] 旨 己 症 二 全 和 上 工科 二 号 上 icmnShiPp，5 
恕 心 芋 七 W 己 袜 台 hi 斌 写 Fi 三 
LOGOlLKItS，? 
基 Winqdew ID for Daint winqew，8T7 
其 LIBP， 所 
EDnLSETWCt StxUCLULTG， 了 17 
XLiDP， 
YePainting camvas， 昌 8 
了 ,Header 下 1， 89，234 
区 FOOD 了 上 YE， 了 31 0 
XVIew， 1 
哩 PoOUt， 了 ， 了 7 了， 1I8 
五 与 折旧 j 人 富安 上 -人 人 It 记 加 汪 YS 七 人 Il， 开 了 
CDmpilinD Programs，4d1 
RCIICEPt 中 w 斌 mwS 局 下 二 全 YS 在 巧 om 其 ， 25 
他 癌 上 志 二 YeS 上 忆 DB DOE，2 
所 XinPJ 所 台 夺 记 TGSTaTman 可 neTEScee， 人 4 
trarmes an9 SUDDEframeS， 也 厂 
Seneric EUnetions，21 
GeTeric Djecc，18，24 


由 format,jidx 产生 的 ， 输 出 到 tro 在 的 样本 如 下 所 示 : 


FE 太 “其 

.XF “其 FTOGLEGCO]T “日 " 

-FE 1 "X Windcow SYSem'newertSs，894， 

-NEF 了 "exeerSiipility，31 

-XPF 3 "ImnCar>1ILenz DIDmiecatIone，9" 
-XE 了 “GOuveEVvVILew，3" 

HP 写 “PIOtDcO1， 昌 1 

-XF 了 “TO 所 上 WinCw 有 BaD 吕 可 已 三， 习 " 

.XE 阅 “ 司 人 TVGI 已 站 人 CLeTE 人 LatLionship，5" 
+XF 立 “号 折 在 W 自 Y 人 卫 > 人 TBrehy，6" 

XE 立 “上 DOLKiIES， 9 

:FEF 2 "和 Window ID for paint window，83， 
-XE 了 “其 13 匠 ， 和 1 

+SF 工 “其 PORTuCLt SELFUCEUTB"” "317 


rr 一 一 
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和 1 
2 "rePaznL2ng >anvas， 呈 8， 
] "IPBP .5D heaadsz 二 12"” 83，254 
-XPF ] "8w_ Pent EYybBha" "310" 
] "XeTer" 18 
2 "Dot，3，3， 7" 
2 "3 癌 有 jcCE 一 DFIeTeO SYSEem，171 


这 些 输出 必须 用 tro 和 格式 化 . 来 产生 索引 的 打印 版 本 。 这 本 书 的 索引 最 初 是 利用 
masterindex 程序 来 处 理 的 。 


masterindex 的 shell 脚本 


masterindex 的 shel1 脚 本 用 于 将 所 有 这 些 脚本 组 合 在 一 起 , 并 基于 用 户 的 命令 行 的 
相应 选项 来 调用 它们 。 例 如 ， 用 户 输入 : 


点 如 如 如 七 日 D 人 EX - 己 - 卫 YOLUmaL Volume2 


表示 用 文件 vofame7l 和 vofarme2 创建 了 一 -个 主 索 引 ， 并 日 将 输出 送 往 展 幕 。 


masterindex 的 shell 脚本 和 文档 一 起 出 现在 附 未 三 中 。 


masterindex 程序 的 其 他 细节 


本 节 介 绍 mmasterindex 程 序 的 几 个 有 趣 的 细节 ,这些 或 许 不 能 引起 你 的 注意 。 本 节 
的 肯 的 是 提取 几 个 有 趣 的 程序 委 ， 并 显示 它们 是 如 何 解 决 桂 殊 问 题 的 ， 


如 何 隐藏 特殊 字符 


第 一 段 程序 取 自 iput.idx 程 序 , 它 的 工作 就 是 在 对 索引 条 目 排序 前 将 它们 标准 化 。 
这 个 程序 认为 它 的 输入 记录 是 由 两 个 用 制 表 符 分 隔 的 字段 组 成 : 索引 条 目 和 宅 的 页 
码 。 冒 号 害 作 为 这 个 请 法 的 一 部 分 来 标识 一 个 索引 条 上 月 的 各 部 分 。 


因为 这 个 程序 将 冒 续 作为 “个 特殊 字符 ,所 以 我 们 必须 提供 一 个 方 落 来 通过 程序 传 
递 一 个 字面 上 的 角 号 。 要 实现 这 一 功能 , 我 们 充 许 编 索 引 的 人 员 在 输入 中 指定 两 个 
连续 的 骨 号 。 然 而， 我们 不 能 简单 地 将 这 个 序列 转换 为 一 个 字面 家 号 ， 困 为 由 
masterinaex 峙 用 的 程序 模块 的 剩余 部 分 读 取 了 有 肯 冒 号 分 隔 的 3 个 字段 。 解 决 办 法 
是 使 用 gsubf( 因 数 将 冒号 转 罗 为 它 的 八进制 值 , 
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间 = 十 zCm ImnPUK -二 GX 

将 宣 琴曲 苇 边 换 成 从 进 制 拓 

中 { 
四 用 “: :的 八进制 值 代 己 它 
Gubly ww" SS) 


“72" 是 骨 号 的 八进制 秆 (你 可 以 浏览 eripxiyeseii 文 件 中 的 十 六 进 制 和 八进制 对 
照 表 来 找到 这 个 值 )。 在 最 后 的 程序 模块 中 ， 我 们 使 用 gsub(O 函 数 将 八进制 值 转换 
回 冒 号 。 下 面 来 白 format.idx 的 代码 : 
间 = 下 忆 em 于 Ormat .工本 
站 将 奉 号 的 败 进 制 转换 或 “学 寻 ” 间 导 
# 对 每 个 字段 进行 皇 换 ， 不 是 $50， 用 宝 委 礼 分 解 
本 SUDT AD 
吕 SUDTeSY Ta "0 2 
SSUBPIAYY73 "5S3) 


要 注意 的 第 一 方面 古 我 们 为 这 3 个 字段 分 别 做 了 替换 ， 而 不 是 利用 一 个 替换 命令 对 
$0 操 作 . 原因 是 输 人 字段 是 用 冒号 分 隔 的 。 当 awk 浏览 一 行 时 , 它 将 行 分 贤 为 字段 。 
如 果 你 在 脚本 中 的 任何 位 喷 修 改 斩 的 内 容 ，awk 将 重新 对 $0 求 值 并 再 次 将 行 分 解 
成 字段 。 因 而 ,如 果 有 3 个 字段 要 例 转 换 ， 并 且 替 换 改变 了 其 中 的 一 个 , 在 名 中 梁 
加 了 - ' 个 守 号 ， 那 么 awk 将 辨认 出 4 个 字段 。 通 过 对 每 个 宇 段 进 行 替换 ， 避 免 了 将 
行 又 分 解 成 宇 段 。 


互 换 两 部 分 


上 面 我 介 曾 讨论 过 用 冒号 分 障 主 关键 宇和 次 关键 字 的 语法 。 对 一 些 类 型 的 条 目 ， 加 
用 次 关键 字 进 行 分 类 是 有 意义 的 。 例如 ,我们 可 能 有 一 组 程序 语句 或 用 户 命令 

如 “sed command"” 。 编 索引 的 人 员 可 能 会 创建 两 个 条 目 : 一 人 是 “sed comimand" 
另 一 个 是 “command :sed"。 为 了 对 这 种 条 目 编 码 更 容易 ， 我 们 使 用 了 一 一 种 编码 规 
则 , 利用 代 字 符 (~) 来 标记 这 种 条 目的 两 部 分 , 使 得 第 一 和 第 二 部 分 可 以 互 换 来 自 
动 创建 第 二 个 条 目 【 注 5)。 因 而 ， 编 写 下 面 的 索引 条 目 





.区 “号 6 人 一 人 Crmano" 


汪 : 这 个 转 接 索 引 素 目的 观点 素 自 于 《The 和 友 氏 Programming Languagey。 坝 而 , 在 (The 
入 友信 Programming Languagey 中 ， 在 有 空格 的 地 方 ， 素 目 可 以 自动 豆 摘 ; 用 代 字 特 
来 防止 “加 入 ”空格 来 做 豆 换 。 这 里 不 是 用 获 认 的 课 作 来 互 换 ， 我 们 利用 不 同 的 酮 大 
习 情 ， 这 里 的 做 字 蔡 坊 示 互 撞 发 生 的 地 方 ， 





尝 
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产生 两 个 茶 日 : 
本 守 站 MP 它 二 
六 全 Ta 号 全 呈 全 卫 
下 面 是 红 拘 条 日 的 代 枉 : 


上 < 上 cm inPut .1ax 
+ 民 大 包括 单个 代 字 符 的 监 下 换 的 条 晶 
8 
# 将 第 个 字段 拆 分 划 subfield 数组 中 
有 = SBTictS-，SUPE2e]G，" -1) 
:Fin -- 2 
1 提 印 激 碳 “一 ”的 乏 片 ， 然 后 三 搞 
电 王 了 站 于 人 "和 二 入 上 汪 :Sm SuUbticlarL]。subEiclal23]， 鼎 3) 
PrImLEET 和 甸 富 :号 : 雪 3vD"，3SUPEie2 azl，Subfiel3d[1]，S52) 


口 书 世上 


】 


这 里 的 模式 匹配 规则 与 任何 包 售 个 代 字 符 而 不 是 两 个 连续 代 字 符 的 条 目 匹 配 , 后 
者 表示 一 个 字面 土 的 代 字 符 。 这 个 过 程 利用 国 数 spPlitO 将 第 … 个 字段 分 割 为 两 个 
“ 子 字段 ”。 这 将 为 我 们 提供 两 个 子 串 ,一 个 在 代 宇 符 的 前 面 , 一 个 在 代 字 符 的 后 面 。 
输出 原始 的 条 是 ， 然 后 将 互 换 后 的 条 日 也 输出 ， 两 个 都 用 prin 纪 语句 。 


因为 代 字符 居 作 为 特殊 字符 , 我 们 在 输入 中 利用 两 个 连续 的 代 字 符 表 示 一 个 字面 上 
的 代 字 符 。 在 对 个 条 日 的 两 部 分 进行 互 换 后 是 下 面 的 代码 。 


##< 下 rm jnPU- . 工 局 居 
# 匹配 也 合同 个 代 宇 符 的 项 E 
SS1 me 
# 用 - 代 性 ~ 
SSubply 1) 














】 


和 角 号 不 同 , 在 整个 masterindex 程 序 中 绷 号 具有 特殊 意义 ,而 代 字 符 在 这 个 模块 
执行 完 后 将 没有 意义 ， 因 此 我 们 可 以 简单 地 输出 一 个 字面 上 的 代 宇 符 。 


寻找 蔡 换 


下 … 段 代码 也 是 到 自 inputidx。 要 讨论 的 问题 是 查找 两 个 被 文本 分 隔 的 胃 号 , 并 将 
第 一 个 冒号 改 为 分 号 。 如 果 输 入 行 包含 
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ClasSs : CEasS LII+z az 【See 己 LsD methodsl 

EL . 

那么 结果 是 : 
妇 工 忆 呈 有 人 1 忆 3 呈 站 上 二 站 1 二 z 忆 【SEE 己 135 metnoasi 


将 这 个 问题 进行 说 时 也 很 简单 。 我 们 希望 修改 第 二 个 则 号 , 而 不 修改 第 一个 。 在 sed 
中 处 理 这 个 问题 非常 简单 ,因为 它 提 供 了 在 替换 部 分 选择 和 重新 调用 所 匹配 内 容 的 
一 部 分 的 功能 【用 \(… 将 要 匹配 的 部 分 包围 起 来 ， 并 用 \i 来 重新 调用 第 一 部 分 )。 
因为 在 awk 中 缺少 这 些 功 能 , 所 以 必须 使 用 其 他 方法 。 下 面 是 一 个 可 能 的 解决 方法 : 
#< 芋 om mnPUE .部 
# 玫 分 号 代 生 第 2 个 狐 民 
主 E 《SUDIA yi" 81 
SUDPI7 :7 "SSL) 
第 一 个 替换 昂 配 两 个 冒 叶 中 间 的 全部 内 容 。 它 用 所 匹配 的 内 容 (六 ) 后 跟 一 个 分 号 
来 做 替换 。 这 个 替换 发 生 在 一 个 计算 函 数 sub(0) 返 回 值 的 条 件 表 达 式 中 。 注 春 ， 如 
果 替 换 成 功 这 个 国 数 返 回 1 而 不是 返回 结 昌 宇 符 串 。 换 句 话 说 ， 如 果 我 们 完成 了 
第 一 个 替换 ， 那 么 我 们 将 艇 第 二 个 ,第 二 个 替换 用 “; ” 赫 换 “: ;”。 因 为 我 们 不 能 
做 直接 的 替换 ， 我 们 通过 构造 第 二 个 冒号 为 特殊 形式 的 上 下 文 来 间接 地 完成 替换 ， 





报告 错误 的 函数 


程序 inputidx 的 目的 就 是 允许 在 编写 索引 条 日 时 有 变化 【或 有 一 定 的 不 一 致 ), 通 
过 将 这 些 变化 短 少 为 一 种 基本 形式 ， 可 以 更 容易 地 编写 其 他 程序 。 


另 “方面 是 如 果 程 序 input'idx 不 能 接受 条 目 , 必须 向 用 户 报告 并 出 除 这 个 条 目 , 以 
便 不 影响 其 他 的 程序 。 程 序 imput,idxz 有 -个 国 数 pinterr0 ， 可 以 用 来 产生 错误 报 
告 ， 如 下 面 所 示 : 
开 UmCt 了 工 记 古 工 ntEXE 【msacGj 
# 打印 销 息 ， 记 录 号 和 和 记录 
闪 六 让 下 【" 卫 其 ROR :对 呈 【对 避 ] 生 BA ETIeSSaSe， 打 RR，SD) > "ev ty 
】 


这 个 颗 娄 使 得 虱 标 崔 方式 捐 告 错误 更 简单 。 它 将 message 作为 参数 看 待 ，message 
通常 是 一 个 描述 错误 的 字符 串 。 将 这 个 消息 连同 记录 号 和 记录 本 身 一 起 输出 。 输 出 
直接 发 送 到 用 户 的 终端 “/devrtty”。 这 是 一 种 很 好 的 习惯 ， 因 为 在 这 种 情况 下, 程 
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序 的 标准 输出 串 能 被 输送 给 一 个 管道 或 一 个 文件 。 我 们 也 可 氛 将 出 错 信 息 发 送 到 标 
稚 错 误 文 件 ， 如 上 所 示 : 


Print “ERROR:” message '，(f NR ' 30 | "eat 工 >&2" 


这 为 gat 打 并 了 一 个 管道 , 将 cat 的 标准 输出 重 定向 到 标准 错误 文件 . 如 蛙 你 用 的 是 
gawk、mawt 或 Bell Labs awk， 你 可 以 这 样 写 : 


BrintE 1 ERRDR:8S 18d] sn，message，HR， 80 1 > "Adevrstaerr， 
在 这 个 程序 申 ，printerrO 困 数 可 以 如 下 调用 : 

Printerrt'No Page murber'") 
当 产 生 错 误 时 ， 用 户 将 看 到 下 面 的 出 错 依 息 : 


ERRDR:ND Page DuUIPeI 1 台 12) 避 BDmetTY TBTE 厅 请 meTL :Set_ walUes 所 1magc 


处 理 see also 条 目 


索引 条 目 有 种 类 型 是 “see also"。 和 “see” 引 用 --- 样 , 它 为 读者 提供 另 一 个 条 目 。 
然而 ， see also” 条 目 也 可 能 有 一 个 页 码 , 换 句 话说 , 这 种 条 目 包含 它 自 己 的 信息 ， 
但 为 读者 提供 在 另 一 处 的 附加 信息 下面 是 几 个 样本 条 日 : 

已 YEDE IToCeeauz 所 3 


息 萎 工 向 上 责 避 丰登 曲 UE 司 有 攻 全 届 ] 呈 必 其 上 上 六 PE 写 刁 ETITOTMESGHaneTeri 35 
各 TFT 上 有 hrGCedHTE (Se 总 13 其 上 PPEITITOTMS 革 ) 


这 个 样本 的 第 一 个 条 目 有 页 码 而 最 后 一 个 没有 。 当 程序 inpumt.idx 找到 一 个 “see 
atso” 条 目 时 ， 将 检查 是 否 有 页 码 ， 如果 有 页 码 ， 则 输出 商 个 记录 ， 第 一 个 是 没有 
页 码 的 条 目 ， 第 二 个 是 有 一 个 页 码 和 但 疫 有 “see also” 引 用 。 


井 < 守 mu . 工 如 区 


# 如 果 没 有 页 码 


32 = 
BEIint SO “3 
刀 和 白 X 上 

】 

人 JS 

# 输出 两 个 条 目 : 


# # 印 See also 条 日 的 wyrout 页 码 


EPEIRtL 崇 1 :1 
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# 上 拓 See 王 18 品 
St 二- 双 全 荆 忆 二 1 3D-s57 ”9 
SuPT7i 1) 
# 必 作 海通 茶 日 打 E 
1 
Pramnt 地 1 ”37 32 
已 -已 
PrYImL SLT 3 人 
开 忆 次 上 


下 一 个 要 解决 的 问题 总 如 何 用 正确 的 硕 序 对 条 目 排序 .。 程序 sort 利 用 我 们 提供 的 进 
项 ,将 “see al80” 条 目 放 在 以 “s” 开 头 的 次 关键 字 下 【-4 选 项 可 以 使 圆 括号 被 忽 
略 )。 为 了 改变 排序 的 腑 序 ， 我 们 通过 在 条 目 之 前 添加 序列 “~zz” 来 改变 排序 关键 
字 。 

#< 了 DRU 七 , 工 总 江 

# 在 城 后 国 排 岩 如 入 “~zz” 

外 WAvT[SS] 记 二 [站 看 ] ]S 四 “工业 二 15， SS1) 

这 个 排序 函数 流 有 解释 -~ 符号， 但 ~ 符号 有 助 于 识别 后 来 要 删除 的 字符 串 。 诡 如 
““zz” 确 保 我 们 将 这 些 条 目 排 译 到 按 次 关键 字 或 第 三 关键 字 排 序 的 列表 末端 。 


pagenunms'idx 脚本 从 “see alsn” 条 日 中 将 排序 字符 串 删 除 。 热 听 ， 和 我 们 以 前 所 
讨论 的 一 样 , 我 们 找到 了 “系列 具有 相同 关键 字 的 “see also” 条 县 并 建立 了 一 个 列 
表 。 因 此 ， 我 们 也 将 删 除 具 有 相同 关键 字 的 部 分 ， 并 将 引用 本 身 加 和 到 一 个 数组 : 


间 <”“ 白 二 外 所 TIUITLS 。 误区 


# 将 次 关键 宁 连 加 “zz ”起 出 除 


有 UL 区 tn -十 一 局 忆 【人 【 呈 SS 生 马 二 [ 立 避 1] 1 3 SECORDaERY 
SJbinnvlsr "BECONDaARY1) 

# 设 关 seealsclist 的 下 .个 元 素 
名 台所 点 开 呈 品 工 斌 名 七 [十 + 握 PD 人 斌 GASD] == BECONDRARY "7 


有 “个 函数 能 鲍 输 出 “see also” 条 目的 列表 , 并 用 分 号 来 分 隔 每 - 项。 因此， 通过 
pagenunms.idx 将 输出 如 下 的 “see also” 条 目 : 


全 FEOF RhTOCEGUEER :TS 人 总 ] 折 马 其 且 员 站 记忆 TOCTMS 宁 + 其 上 PESe 上 EYERSTHamG1ler.) 


可 选择 的 排序 方法 
在 这 个 改 序 中 , 我 们 选择 在 索引 条 目 中 不 支持 trefE 字 体 和 磅 数 请 求 。 如 果 你 希望 支 
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持 特殊 的 转交 序列 , 《The 六 而 久 Progtramming Languagey 中 介绍 了 一 个 方 活 ， 对 
于 每 个 记录 , 霸 取 第 一 个 字段 并 将 它 附加 在 这 个 记 隶 上， 作为 排序 的 关键 字 。 有 必然 
第 一 个 字段 产生 了 重复 ， 可 以 从 排序 关键 字 中 删除 转 浆 序列 。 : 旦 条 目 被 排 好 序 ， 
就 可 以 删除 排序 关键 字 。 这 个 操作 防 小 了 转 叉 序列 打扰 排序 。 


另 一 个 方 共 所 艇 的 工作 和 我 们 对 “see also” 条 日 所 做 的 类 似 。 国 为 在 排序 中 忽 皮 了 
特殊 字符 ， 我 们 可 以 用 记 Put.idx 种 序 转换 好 0 三 宇 休 更 改 序列 ,例如 将 “ 委 ” 改 为 
一， 将 1T” 改 为 “~ 一 ~， 或 任何 合适 的 转交 序列 。 这 可 以 使 sort 程序 处 理 
这 个 序列 而 不 影响 排序 (这 个 技术 被 Steve Tallhott 应 用 在 他 的 原始 的 索引 脚本 中 )。 


在 两 种 情况 下 需要 处 理 的 惟 :问题 是 : 对 于 具有 相同 术语 的 两 个 条 日 ,一 个 带 有 字 
体 信 息 ， 另 一 个 没有 ， 当 将 一 个 同 另 :个 比较 时 将 被 看 做 基 不 同 的 条 目 。 








-一 芋 本 章 青 容 ; 轴 

第 十 一 皇 。 untotaiyk 一 一 USCP 
， > 的 统 评 报 寺 ” ” 达 

.phoaebil 引入 电 


竹 . 
人 旋 的 使 用 情况 
脚本 的 汇总 es 


.和 劳 用 nsncedo 入 码 几 
未 让 王 的 一 进 制 代码 


mailayg -- 趣 坦 是 和 


.的 大 汪 四 
和 光 一 -调整 文本 文件 
四 全 行 . 四 


。 eadsouies -将 得 库 
. 源 文件 格式 做 为 人 of 
和 攻 ， 

4 Seat 一 一 获 择 ore 

条 让 ， 

， 卫生 

处 理 器 、 

二 条 an0SPO 季 _ 

、。 厂 的 转生 ， 玫 

党 全 一 有 的 坟 过 

条 


Se 人 
放 0 


村 章 包含 了 由 Usenet 用 户 提 供 的 脚本 的 一 个 汇总 。 每 个 程序 的 作者 对 程序 都 做 了 一 
个 简 社 的 介绍 。 起 们 的 注释 放 在 方 括 号 中 [就 像 这 样 ;， 然 后 将 完整 的 程序 显示 了 出 
来 。 如果 首 者 没有 提供 例子 ， 我 们 将 在 列表 后 面 给 出 一 个 例子 。 最 后 ， 在 称 为 “ 程 
序 注 意 事项 ”的 部 分 ， 我 们 简要 讨论 了 程序 ,对 - 些 有 趣 的 点 着 重 说 时 了 一 下 。 下 
面 症 这 些 脚 森 的 一 个 摘 村。 





utot.awk  UUCP 的 统计 搬 告 。 


Phonebitl 跟踪 电话 的 使 用 情况 ， 
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coatihine 抽取 和 部 分 用 uuencoded 编码 技术 处 理 的 二 进 制 代码 。 
1 检 村 且 箱 的 大 小 。 


adj 调整 文本 文件 的 行 。 

readisource 将 程 庆 源 文件 格式 化 为 troff 格 式 ， 
gent 获得 termcap 条 日 。 

Plpr 行 式 打 印 的 需 处 理 器 ， 

transpose ”实现 托 阵 的 转 置 。 

mi 简单 的 宕 处 理 器 。 


uUutot.awk 一 一 UUCP 的 统计 报告 


由 Roger A. Cornelius 提 人 性 


下 面 是 我 在 nawK 妹 境 中 编写 的 一 些 东 西 ， 可 以 宽 成 用 C 语言 版 本 完成 的 相同 的 事 
情 , 这 些 被 发 送 到 eltsowreer， 一 会 儿 就 会 返回 。 它 主要 是 统计 了 uucp 的 连接 (过 
接 时 间 ， 传输 量 ， 传 输 的 文件 数 等 等 )。 它 只 支持 HDBE 风格 的 日 志文 件 ， 但 将 显示 
逐 站 点 传输 的 统计 , 或 总 的 统计 (所 有 站 点 )( 和 它 一 起 王 作 的 还 有 Aeerspooaacpy 
STSELOC)，。 


我 使 用 shell 实现 通过 调用 “awk-f” 来 运行 这 个 程序 ， 但 这 是 不 必要 的 。 使 用 说 明 
在 程序 的 首部 。 【很 抱 故 役 有 广 释 .) 





# 得 ( 才 ) utot .awk -显示 ucp 统 计 - 要 求 新 的 awk 
上 得 (并 ) Usage:awk -三 UUEGE ,aawWK [Sire .- .1 Ausryospoolruucpy -adminyxfereatS 
# 必 考 :Roger 点，Cprnelius (racesherpa-uucDb1) 


提 goesgome 1 # 站 点 名 - 如 果 没 右 设 置 则 为 所 有 的 
提 Yemote 人 # 站 点 和 名 数组 
失 bykces []; # 站 点 癌 外 鉴 送 的 字 节 数 
提 time [] 1; # 设置 花费 的 时 间 
# filss []， # 站 点 问 外 发 送 的 文件 
BEGIN !{ 

Qoal1l = 1; 

IE IaRBC > 321 二 

局 al1l - 0 


for 人 II = 1 1 < maRGC-1 IIr+y 革 


roqp re unnigeRagararri rr -一 -一 -一 一 一 一 一 一 - _ 


3 


洛 
二 





PEND ( 


dosome | aRGw [j] ]; 
让 RGVT] = 


xpyte = 1024  ## 如 果 汪 有 特 草 要求 席 为 -000 


Pa = ”05 
Seng no - "> "1 
xmitkint - "> 
ht] - “了 EtmctE 及 -日 yegs 其-ByEeS 民 - 廿 ye 全 
"HiMn: SC HzMnzgSc RAVCPS avwCbS 搓 ##m 
于 可 人 号 Na 必 RecY 20f Teta1 四 
RECYV Xi RecV Xr 二 RECW XSDITLYTm" 
bidr3 = '-------- -rr -一 
TmL- = “和 更- 加 .日 呈 天 9 .3 全 .3 旬 时 .3 多 2 寺 z 昌 间 2 品 : 和 DO .0f "， 


" 昌 避 扣 z 于 了 已 避 :向 站 2 .DT 主 量 5 . 遇 直 生 5 .站 名 4G 时 和 mn" 
训 miEZ = “GEaTS 惠 汪 -3 组 生 守 .3F 省 Zd: 种 门 2 局 :第 D2 .0T ， 
"和 鲁 吕 本 = 台 习 3 可 车 站 人 下马.DE 各 5 多 和 生 4Gvr "1 


守 【和 1 3anit 上 ting 六 SFPFeu]l 虽 mewver be 
工人 X 


忆 iTeCEicnm = 198 == senaing ?3 1 : 2) 


中 订 = SUESLr1SL inaextslbang)-:)7 
it fsite in Gosome || qoaslh 
FE 上 号 [ Site 
了 YY 上 它 S TS 七 已， 可 rectior] += 总 7 
ime[site,Qitrection] + S93， 
卫 工 忆 号 [ 妆 工 七 全， 斌 工 已 忆 上 LO 有 ++ 


PrFinE harl Paqtr2 har3; 
for 《KE Im YEmCtE 1 
Th 所 += YeBTK21 BIDY 关 十 = Jr 二 全 BT ) 
xEiImnS += 十 :me[Ky al1; StLme += LimefKk, ly， 
TfilLes += 工 LTeSLk,2]: sfjles += files[Kk,1]7: 
BFIRTT fmt 1 ,KDYteS [之 ] /Kbytey pytes[X, 1]17kbyte， 
bytes [K,3]+Dytestixr 1])7kbyte， 


上 tire[K,2 73600， (ime [KK 2] 和 3600》 6D， 七 irme il，2] 多 6D， 
ie [kK 1]735600， Tbime[ky1]3936003 6D，Eime[K，1] 多 6D， 


PPwtbes[K,2 8 -ime[K,2] ?3 byrtes[K,2]time[k,2] 
JrLea [KK 1] 冯 E =ime[k1] 2 Pyktea[KkK, 1]Atime[k'i] 
上 iles[K,2]，filesik, 1117 


DTImnL har3 。 

了 PTITnLETEmLE2， TbyteyAKbyte，SbyteA kbyYEee， (frbytet+sbytely7kbvce， 
工 CI 和 人 六 生 DD ， 【 芋 三 工 划 宅 生 呈 日 DDD 7 肌 辣 ， 开 七 诗 思 名 下 站， 
号 FIITnEY 3 丰 自 日， 【站 二 工 屿 已 全 今 各 性 站) 特意， 总 七 守 本 生 务 日 下， 


昌 ， 
B， 


脑 林 的 汇总 


了 339 





TbYy 二 人 站 TLime ?3 Frbyteprtime :  ， 
所 YE & Sime 3 Spytey stime : 0， 


工 芋 i 工 全 B， 号 二 人 G) 


生成 -个 测试 文件 来 测试 Cornetius 的 程序 .下面 是 从 /ierspoolaacpA Adpainy 
Xersfats 提 取 的 几 行 《因为 在 这 全 文件 中 的 每 行 都 本 长 ,不 能 在 “页 打印 ,我 们 已 
经 将 行 换 段 ， 后 面 的 方向 箭头 只 是 出 于 显示 的 目的 )。 


工 有 1 BimnuucP 3 :623-16:10317) 


Is]3anuucp &8 ;1873-1563:10:20h 
149/0.S00 Secs. 
1slalesue S 【8973-16:10:49) 【evt26 ,27) 


工 53a1Sue 上 1873~16:10352) (CC,126,28) 
14500,513 secs， 


UUTeStiuaisla MIBA3-156:15:50) 1C,951, 17 
了 91 7 人 .日 5 站 台所 Cs， 
Hunet !uiela 时 【8A3-16:15:53) 1C,951，231 


工 站 站 7 自 . 唱 8D 马 避 局 ， 


Unumnet :uiSTLa 网 【3731bs153573) 人 CC 351，31 
| 生 1 昌 7 让 ,与 和 D 号 忆 C3， 
TU 六 生 上 ULISJT3S  【 昌 2 3-1 人 :EDD) TCR 951 4) 





荆 丰 站 7 癌 . 有 ?由 瑟 生 它 旺 ， 


人 PT12625) [tydl1j] ~> 
十 主 31 7 .站 中 口 台所 S 
(2 136,26) tcyil 林 ] -> 


写 3 JPYtes Se 


了 呈 8 DY 七 eS/ 名所 民 
[ttyi1j] --> 


百业 各/ 35 .3 和 辣 皇 它 呈 了 5 有 bw 七 巴 扯 / 导 忆 中 


[ttyil1j] -> 
号 日 4 瑟 节 上 下 呈 避 总 性 
"EUILTLE] 一 > 
30 条 DY 七 号 号 7 SC 
[cuI1Ia] -> 
工 昌 5 人 ]pWY 上 名 上 ”S 人 GCC 


[CuUiT 喜 ] 一 > 
二 由 5DbY 七 各 台 / 右 白 忆 
[cuial1 吝 ] 一 > 


之 2 和 5 六 YEeSA7 SEC 


UUReL SGaetton M 【SA3-16:15:06) (IC 951,5) 【euila] <- 


55272.340 扣 所 cs， 


了 0D1 yesSsecC 


Unet Gaemon H 1873-16316:09} 【CC951,6) [euila]l <- 


1D271.390 总 怠 尼 辣 ， 


了 3 DYLeS7 sec 


注意 ， 这 此 有 12 个 字段 ， 而 程序 只 用 了 第 1、6、7 和 ?9 字段。 使 用 样本 输 人 运行 以 


上 程序 将 产生 下 面 的 结果 : 


SS RaWEK “于 DO . 忆 WK UL 世上 -七 所 昌 


REImO 七 扬 天 "BteS 及 -ByteSs 及 -BY=es HrIMn:Sc HrzMns3Se AwCP3S avCPS 非 性 
呈 LEeNarme 及 所 CCV Xmit Total 玉 ECV Xmit Recv Xit Recwv Xrmit 
Uumer 日 .日 3 呈 补 , 生 98 3 0997 口 :0 和 :3 和 109:43 0 2 二 
工 总 1 癌 .用 犁 品 了 - 昌 22 2,.022 0:003:600 自 :131;5 ] 避 入 
T 上 ta]3 口 .后卫 9 六 .如 日 全 5.119『2:04:34 23:23:44? 二 ] 已 
uutot-awk 程序 的 注意 事项 
这 个 mawk 应 用 软件 是 一 个 编写 清楚 的 awk 程序 的 一 个 极 好 的 例子 。 它 也 是 一 个 使 


用 awk 将 上 隐 记 的 UNIX 日 志 修 改 为 有 用 的 报告 的 典型 例子 。 
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只 然 Cornelius 役 有 给 出 注释 来 解释 程序 的 逻辑 结 风 ,但 从 程序 开始 处 的 注释 中 能 很 
清楚 地 了 解读 程序 的 用 法 。 而 及 ,他 使 用 变量 来 定 多 搜索 模式 和 报告 的 布局 。 这 将 
有 助 十 简化 程序 体 中 的 条 件 和 打印 语句 。 同时 程序 中 所 用 的 变量 的 名 字 有 助 于 立刻 
识别 出 它们 的 州 处 。 


这 个 程序 的 结构 包括 3 个 部 分 , 和 我 们 在 第 七 章 “ 编 写 awk 钴 本 ”中 所 强调 的 - 样 。 
它 的 组 成 中 包含 :个 BEGIN 过 程 . 在 其中 定 交 变量 ; 包含 :个 主体 ， 在 其 中 访问 
来 白 于 日 点 文件 的 每 行 数据 ; 以 及 一 个 END 过 程 ， 在 其 中 生成 输出 的 报告 。 


phonebill 一 一 跟 忠 电话 的 使 用 情况 


由 Nick Holloway 提供 


这 个 程序 用 于 计算 电话 费 。 在 英国 电话 费 是 由 在 通话 过 程 中 所 用 药 “ 单 元 ”的 数量 
来 计算 的 【本 地 电话 不 是 免费 的 )， -个 “单元 ”的 持续 时 间 长 度 依 赖 于 带宽 的 费用 
《和 距离 有 关 ) 和 速率 的 费用 【和 “天 的 时 间 有 关 )。 遂 话 一 开始 就 得 对 整个 单元 付 
费 。 


这 个 程序 多 输入 有 4 个 字段 .第 -个 是 日 期 { 不 用 )。 第 二 个 是 “带宽 /7 速 讼 ”用 于 
计算 一 个 单元 的 时 间 长 底 。 第 三 个 字 办 是 适 话 的 时 间 长 度 。 它 们 可 以 是 “ss”、 
“mm:3s ”或 “hhimm'ss” 格式 。 第 四 个 字段 是 呼叫 者 的 名 字 。 我 们 使 用 一 个 种 表 {! 旧 
的 便宜 的 数字 型 的 )]、 :本 书 和 一 只 笔 , 来 计算 由 我 的 awk 脚本 反馈 的 时 间 的 账单 。 
这 具 计 算 了 上 打 电 话 药 费 用 ， 而 负 有 计算 男 定 的 费用。 


这 个 程序 的 日 的 是 尽量 减少 呼叫 者 需要 输入 的 信息 量 , 而 且 可 以 用 来 将 每 个 用 户 打 
电话 的 费用 收集 到 一 个 报告 中 。 这 个 程序 还 可 用 于 当 英 国电 话 公司 改变 它 的 收费 标 
谁 时 , 可 以 在 顶 蝴 很 容易 地 实现 修改 (这 已 经 实现 过 一 次 ),。 如 果 增 加 更 多 的 带宽 收 
改 或 速率 收费 , 相应 的 表 可 以 被 简单 地 扩展 ( 奇 录 的 是 相关 的 数组 )。 这 里 对 输入 的 
数据 避 有 做 彻底 的 智能 检 油 。 用 法 为 : 


phonehillf zzze --.] 


下 面 是 输入 和 输出 的 【短小 的 ) 样本 。 


脚本 的 汇总 


和 输 和 人 : 


2307 





25305 昌 "R S :33 IT 区 
3705 TD al 
D106 了 9 30:5C 攻 cK 


SuUnrmaTy :oz DelLe: 


29305 Je 1:00:00 1 units 


FaLz1LL DR 和 -06 Perze Per Ditr = 二 间 .5 右 
SUmmraIy for Rigg: 


23205 了 总 S333 13 urats 
在 1 站 EC 30235 瑟 ULLS 


ToEa1ia5 ndIte 站 -nb PE Per EnIL -。 训 ] .3 


下 面 是 phonehill 的 程序 列表 : 


#12DPinmeawk 一 





#----------------、 
# awk 脚本 在 电话 中 的 使 用 、 计 算 每 个 人 
上 的话 则 
#------------- 
并 作者 :说 ,.Heo]ljloway (alLfieecs.warwticK ac.UK) 
划 日 期 | : 2 Taruary 1389 
上 邮 点 : mareick 到 学 
#--------------------:------------------- 
# 各 夺 的 格式 刘 下 所 所 
# Date YYPE7RaTB Dengtn Nam 
# 
# 格式 : 
# 上 1 册 3 "Gdymm -cnmne wery 吕 
# 情 宽 7” 建 率 : "bberr” Te.9，TAr) 
共 时 间 长 魔 :hasrrmtss"， TIm :Sr， "33 汪 " 
# 名 宇 : "FTEO “one Word lunicue) 
H------------------------------ 
# 费 出 信息 被 保存 在 数组 “ce ”中 、 
攻 按 “typecyrate” 索 引 
# 而 县 簿 个 单元 的 费用 保存 在 变量 “pemnee._per_unit” 中 
# 信息 害 保 存 蛮 两 个 数组 中， 都 用 姓名 做 索引 。 第 .个 “summarv” 名 含 输 人 数据 的 行 . 
# 以 用 单元 的 个 数 、 而 旦 “units” 是 短 个 用 户 所 存单 拒 的 总 的 累加 结果 
#-------------------------------------- 
BEG2-N 
f 

# --- 每 企 单 瑟 的 费用 

Pence per unit =- 二 .4 # 你 个 单 开 4.4 恒 二 

Denee per_urit *- 1.15 # 增加 15# 


# -- -对 于 每 个 单元 在 不 同 带宽 / 过 率 下 的 每 秒 费用 列表 
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#+ 不 能 将 0 作为 值 输 和 
errer] = 330 me [DISs"] = 85.0 CD ] = 60.07 
和 [ee ] = BE Ce [args"] = -3 Ce [air] = 2S.77 
C [blrc"]=- 60.07 5 [blys"]=- 30.0 Ce [bl ]= 22.51 
C [pre"] = 45.07 SC [bar] - 24.07 避 ["by "= 18.0: 
C [mpe"] = 13.07 已 [mAer] > 8.007 和 [mp"] =- 8.00 
它 [arc"] = 9.007， 避 [ar = 了 7 了 .308 [ap"] = 站 
[aeec"]= ?7.60: 避 ["aA2rf8 = 日 .20) 号 [27P"] = 昌 : 
CTBPc"] -6.65 Re ["BAs"] = 5.45)， CC [BEP"] = 0 了 
ICAe" = 9.15 PP [CA ] = 有 .35 总 [CAB ] = .957 
人 [DAe ] -了 35 [Da = 3.90 8 [RDyP] = 昌 了 
它 [EAerl -了 .80; TB5"] -了 .95 C【 "3 ] = 意 了 
们 [EC =- 3.65 Ce [PRA6"] = 3,35) Ce 13/ 玫 "] = 息 
C TIGrc"] = 2.157 CC [MGAs] = 3.157CcC [GE ] = 二 .157 
{ 
spu -ce[S2] # 查找 要 信 提 的 带宽 
iE (spu -- "spu--01 1 
SUIImazYy [ 史 ] = Surmmary [ S4 ] ”ms 
SBDTITHT 【 "和 角 4 呈 3 贡生 8 多 78 了 UnRIEES" YY 
1 .上 3 
” -Bady7Unknown AnharSeband" 
] else 1 
m = split (1S3，t， 3) # 计 算 以 种 为 单位 的 长 度 
Seennaa = 映 
for (= 1 3 <=- ni I++l) 
Saconas = SecnoIcs*b0 + 七 [并 
U = 号 丘 COOLS ”号 刘 册 # 计算 总 的 种 数 
if tinctf au ==u)  # 会 人 到 的 下 一 个 单元 
U = intt u 1 
局 号 全 
Us inrtt u 1) + 
units[ $4 ] += au # 在 最 后 特 出 信息 保存 到 输出 中 
SUmImary[ 54 ] = SUmmary [ 5 ] “ms 
号 Rh 守 mt 二 人 "名 员 号 先生 吕 汕 6 轩 3 UnIES"，A 
1， SS2，S33， 
了 
EN 
fcr (1ia unite ) 1 # 对 每 个 人 


FIiIntE ( "Summary for %s:"，  ) # 从 汇总 开始 加 和 新 行 

了 xint Summarxy [ 宇 ] # 打印 汇总 的 细节 

# 计算 贰 用 

toOtal = int (units [ij * Penmce_ Pet umit + 0-5 ) 

瑟 工 工 世 上 主 【 

“TOtal :和 GUIitS 日生 .23T PenCE Ber UL = 占 S-g%02Qnvn" ， 
In 计 廿 号 【 守 ]】 ,全 所 ICe_ 人 TY_ UniL 世 七 呈 二 1 总 D，“ 
七 局 七 去 1 名 1 口 


A 


脚本 的 汇总 _ 303 





程序 phonebil 的 注意 事项 

这 个 程序 是 从 : -个 简单 的 记录 结构 中 得 到 综合 信息 并 生成 报告 的 另 -个 例子 。 

这 个 程序 的 结构 也 包 售 3 部 分 .BEGIN 过 程 中 定 交 了 应 用 二 整个 程序 的 变量 。 当 电 
话 会 可 被 通知 “同上 调整 ”他 人 的 速 这 时 ， 使 用 了 EGIN 过 程 可 以 很 容易 地 完成 程 
序 调整 . 其 中 的 变量 是 -个 大 的 数组 ， 命 名 为 ee， 其 中 的 每 个 元 素 是 每 个 单元 的 种 
数 ， 使 用 带宽 与 速率 过 比 作 为 这 个 数组 的 索引 。 


主 过 程 读 取 甲 户 日 志文 件 的 每 一 行 . 它 使 用 第 二 个 字 恨 , 即 标识 带宽 /速率 的 字段 ， 
从 数组 c 中 得 到 一 个 值 。 它 检查 到 一 个 正 束 值 被 返回 ,然后 使 用 3 指定 的 时 间 来 处 
理 这 个 值 。 人 在 这 个 道 话 中 的 所 用 的 单 亏 数 被 存储 在 数组 units 中 ， 数 组 的 索引 是 用 
户 的 名 字 【$4)。 为 每 个 呼叫 者 累计 这 个 值 。 


最 后 ，END 过 程 打印 出 数组 umits 中 的 值 . 生成 每 个 呼叫 者 所 用 单元 的 报告 以 及 通 
话 的 总 费用 。 


combine 一 一 抽取 多 部 分 用 uuencoded 编 
码 技术 处 理 的 二 进 制 代码 


由 民 ahul Dhesi 提供 
在 我 所 编写 的 所 有 脚本 中 ， 我 虹 引 以 骄 司 的 呈 这 个 “combine” 脚 本 。 


当 我 在 调整 comp.aimraries. 冯 mpc 时 ， 我 想 为 用 户 提供 一 个 抽取 用 muuenceoded 编码 
技术 ( 和 将 一 进 制 数据 转换 成 可 打印 文本 }) 处 理 的 二 进 制 代码 的 简单 方法 。 我 在 每 部 
分 添加 了 一 个 BEGIN 和 END 标 题 将 编码 部 分 包围 起 来 , 并 向 用 户 提供 下 面 的 脚本 : 


忆 本 [上马 二 | seE 芭 '“AxFRNDA AAABEGITM7d | umuaecode 


这 个 程序 将 接收 作为 命令 行 参数 的 一 个 文件 名 ( 按 顺 序 ) 列表 。 它 也 可 以 接收 连 在 
一 起 的 文章 作为 标准 给 和 人。 
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这 外 脚本 使 由 了 :个 很 有 用 的 方法 调用 eat，sheli 儿 本 的 熟练 用 户 对 这 种 方法 很 数 
意 , 忆 大 多 数 用 户 没 有 有 效 地 使 用 它 。 这 种 方法 人 允许 用 户 可 以 选择 是 提供 命令 行 参 
数 还 是 标准 输入 。 


这 全 脚本 调用 sed 将 多 余 的 头 和 必 剥 除 , 第 -个 输入 文件 中 的 头 和 最 后 一 个 文件 中 
的 尾 除 外 。 最 后 结果 是 将 多 个 输入 文件 由 的 相应 的 编码 部 分 提取 出 来 并 解码 .每 个 
输入 文件 【参阅 comp.pimarief.bmpec) 的 格式 如 下 : 

了 所 忆 村 E 工 

BEGIN 


USeneeaec 上 ex 
END 


我 有 很 多 其 他 的 shell 程序 代码 ， 但 上 面 这 个 是 量 简单 的 且 被 成 后 上 万 的 comp， 
binaric5, 动 种 ,pc 新 闻 组 读者 证 明 是 很 有 用 的 。 


程序 ceombine 的 注意 事项 


这 个 程序 非常 简单 , 但 实现 了 很 多 日 的 . 这 里 为 那些 对 这 个 命令 不 埋 解 的 人 微 一 些 
解释 。usenet 新 闻 组 如 comp.inarier. 芭 mpc， 提供 了 公用 程序 和 其 他 类 亿 的 东西 。 
由 编 详 器 生成 的 一 进 制 日 标 代 码 ， 除 非 该 “编码 ”否则 不 能 作为 新 闻 文 章 来 发 布 。 
程序 muencode 将 一 进 制 转换 为 ASCH 表 示 ， 这样 可 以 很 容易 地 发 布 。 而 且 ， 它 对 
新 闻 文 章 的 长 度 有 限制 , 大 的 二 进 制 文件 被 分 割 为 一 系列 文章 { 例 如, 分 割 成 3 个 ) 。 
Dhesi 将 编 码 的 一 进 制 分 解 为 容易 处 理 的 块 , 然后 添加 了 BECGIN 和 END 行 来 对 包含 
编码 的 二 进 制 文本 确定 界限 。 


这 些 文章 的 读者 可 能 会 将 每 篇 文章 存储 到 一 个 文件 中 。Dhesi 的 程序 可 以 自动 组 合 
这 些 文章 并 则 除 无 甘 的 信息 , 例如 这 些 文章 的 标题 以 及 BEGIN 和 END 标 题 . 他 的 
脚本 删除 从 第 :个 了 END 开始 一 直到 下 -- 个 BEGIN 模式 ， 并 包括 这 个 BEGIN 模式 
之 间 和 包含 的 行 。 它 将 所 有 单独 的 被 编码 的 传送 信息 包 组 合 起 来 并 和 将 它们 传 给 
uudecoge ， 这 个 程序 将 ASCII 编码 转换 为 二 进 制 ， 


用 简单 的 … 行 各 本 就 避免 了 人 工 编 辑 的 大 量 工作 是 一 个 值得 感激 的 事 。 
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mailavg 一 一 检查 邮箱 的 大 小 


由 Wes Morgan 提供 


当 调 整 我 们 的 邮件 系统 时 ， 我 们 需要 为 用 户 的 地 箱 每 饥 30 天 做 一 个 “快照 "。 


脚本 简单 地 计算 文件 的 平均 大 小 并 打印 用 户 邮 箱 的 数据 分 瑟 。 


站 1 Ringshb 
提 


# 计算 /usrymail 中 文件 的 平均 大 小 


打 


# 由 Wes Hergan 编 与 . 邮箱 为 mcorogane@erngy .uky.edqc .9330 年 2 有 21 


1S -FS Ausrrmail | awkr 
1iEI9R 
七 DCa += 1， 
之 umE += 1; 


包 上 2 名 - S1 


ifsize -- 0) 


+ 


宇 扬 工 它 OUBRLt+=1 


ES > 二 LE <= 二)EERCOUnRL+= 工 

工 [3 zBe > 10 Size <=- 19]teennount+r 1， 
faR17P > 3 RE SizE <= 50)upLGT Eyecount+-1; 
501 DwerTiftyzounkt+=17 


了 了 芋 1EIze > 
】 


END 【 Brint 


CCUTI ,上 口 二 总 ] ) 


EL 上 
BITILnE 


Yin 1 ALz 马 
PTintE 人间 
REIntE TI" 1-EO 


它 int 
玉 工 1 


f "11 -38 





ET 21-5 后 


它 芋 InLE TOswer 6 


上 下 
XIt 心 


下 面 是 mm#ilavg 输出 的 -个 样本 : 


马 了 aa 二 工程 杂 


F 19VeTAG 记 3 六 5.2E 肪 Locks Am 
FT AnDIESErIDUEiOnY "YY 
Ceountsn" )》 


号 可 
鱼 呈 
| 
| 
久 本 


站 7uSErmmailLl has 务 吕 Imailpoxes Using $9 bockSs，"， 


AD” -ZeTCCunT |】 
Antemecunz 】 
”mnCOUIDL 》 

只 有 ”和 站 上 上 扬 于 本 EYeGUD4) 
AD CE 工 在 工 直 YY 人 裤 已 QI 七 了 


USIAmail has 47 matLbexes usin9 5116 blocks， 
已 VBTBGE 13 108.85 bbLOCKS 


也 SKEIIL EU ion 


忆 2 尼 Cu 七 
口 了] 
-1 13 
1 -200 1] 
21-50 5 


Ver 50 


2 





七 GtaIezcounty》 


这 个 


志 
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程序 mailavg 的 注意 事项 
这 个 管理 程序 和 第 七 意 中 的 f 和 enum 程序 类 似 。 它 处 理 ls 命令 的 输出 结果 。 
可 以 将 条 件 表 达 蕊 “NR != 1” 作 为 一 个 模式 长 到 主 过 程 的 外 面 。 当 辑 结构 相同 


时 , 用 这 个 表达 式 作为 模式 可 以 清楚 地 表示 这 个 过 程 毗 如 何 被 访问 的 , 使 得 程序 更 
容易 理解 。 


在 以 上 过 程 中 ，Morgan 使 用 一 系列 条 什 ， 来 收集 对 每 个 用 户 的 邮箱 大 小 的 分 配 统 
计 ， 


adj 一 一 调整 文本 文件 的 行 


由 Norman Joseph 提供 


【因为 作者 使 用 他 的 程序 在 发 送 邮 件 之 前 将 邮件 消息 格式 化 .我 们 在 把 它 作为 示例 时 
保持 了 其 断 行 和 缩 进 的 段落 和 烙 式 .这 个 程序 和 BSD fmt 程 序 是 相似 的 。) 


好 ,我 决定 接受 你 的 提议 。 我 相信 有 了 比 我 更 有 经 验 的 人 ， 但 是 我 的 确 有 -一 
个 我 很 喜欢 的 nawk 程序 ， 我 特 它 发 送出 去 。 

是 的 ， 现 在 的 各 度 很 恒 。 当 我 写 电 子 朗 件 时 ,我 经 常 对 正文 做 很 多 修改 [万 
其 是 要 发 送 到 网 站 的 )。 因 此 在 开始 怠 调 整 好 的 信 或 邮件 ， 在 我 开始 增加 或 出 
除 行 时 则 看 上 去 很 混乱 ,所 以 星 后 我 花 览 了 很 多 时 间 对 我 的 文档 进行 连 贸 或 断 
行 ， 以 得 到 一 个 好 着 的 右边 界 。 因 此 我 对 我 自己 说 , “这 只 是 几 个 单调 过 味 的 
工作 ， 可 以 时 程序 来 很 好 地 完成。 

更 在， 我 知道 可 以 用 mroff 来 过 洪 我 的 文档 并 调整 行 ， 但 是 它 只 赵 认 地 
(IMHO) 处 理 像 这 个 这 样 向 单 的 文 率 。 因 此 ， 抱 着 加 深 自 己 Hawk 能 力 的 趣 法 
我 编写 了 adj.awk。， 并 同时 用 shell 脚 未 实现 了 adj 


下 面 是 nawk 过 证 器 adgj 的 语 祛 : 
委 人 jj[ -由 ell T-w al[Eal[zizes .，,.] 


选项 为 ; 
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行 左 对 齐 ， 右 边 不 规则 【默认 的 》 

行 居 中 对 齐 

行 右 对 齐 ， 志 边 在 规则 

左右 对 齐 

设 尝 行 的 宽度 为 口 个 字符 《默认 为 70) 

设置 首 行 编 进 为 = 个 字符 【默认 为 0) 

因此 ,无 论 何 时 当 我 完成 这 封 信 《【 我 用 的 是 时 ) 时 ， 我 将 执行 命令 : 哆 1adj 
-w73 (我 硕 望 我 的 行 长 一 些 )， 所 有 的 行 连接 或 断 行 都 遇 这 个 得 序 来 完成 ， 这 


正 是 所 共 望 的 。 编 进 和 空 行 被 保存 ,并 且 在 所 有 内 未 的 标志 逢 号 后 添加 了 两 个 
室 格 。 

这 个 程序 处 理 了 制 表 苷 ， 当 计算 行 的 长 诬 时 ， 它 将 制 表 御 作 为 一 个 空格 的 
长 度 来 计算 。 


值得 注意 的 是 这 个 程序 使 用 命令 行 和 参数 赋值 而且 具 备 了 awk (nawk) 的 
一 些 新 的 特点 ， 例 如 内 置 match 和 split 函数 及 其 相关 支持 函数 。 


1 YI 7S 及 
调 则 葡 本 的 行 
用 法 ， aaj [-1ltclrlpl [-wrnl [-inl [files ,.,] 


非 
让 
非 
# 
提 
# SPEtienms : 
提 
非 
提 
并 





-I 行 左 对 齐 ， 右 过 不 规则 【默认 地 ) 
-人 行 居中 对 齐 
- 工 行 右 寻 齐 ， 至 边 布 再 则 
-9 正 石 对 齐 
-w 世 设置 行 的 宽 为 <n> 字符 【默认 为 : ?0) 
于 设 任 首 行 编 进 亢 < mn > 字符 【〈 默 认为 : 01 
林 
# 注 意 : 
提 用 -w 加 上 -来 设置 输出 行 的 寅 度 
失 
# 作者 : 
丘 Hernman Joseph 1amanue : 口 可 LVweelITOIEt)} 
日 全 ] =】 
WwWIz=zD0 
站 可 = 站 


Se -- “getopt LeCrbw: 1: 上 * 
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iT Eeest S2 1- 站 

上 he 
pzincf Usagelgs3 |[-1Ielrlbpl 5 -wmn T-l nl Ltiies .. -]2 5S0 
exlIL 1 


「i 


far 号 + 要 im 号 二 





口 O 
亦 忆 吕 人 Sa 可 也 
- 工 ) aa- 
-Cj) aa]=cry Sn 
一 ) 间 人 jj = 上 
一 蕊 ) 站 = ShiIEty 
-W] W1LQ>S27 Snift 3: 
-1 inQ=S3; ShIfC 3 
-~-)》 shzft: breaky 
避 号 忆 己 

aone 


EXeC DawK -上 站 咸 .有 WW 攻 【WPE= 呈 3 昌 j  13mE]En=swia inaqent= 包 -md 训 + 
下 面 是 被 shell 脚本 adj 调用 的 adj.mawk 脚本 : 

# 用 选项 调 翌 误 本 的 行 

# 


# 注意 : 这 个 maswrk 程序 从 “aaj” 脚 本 中 国 用 
上 参见 “用 法 和 调用 约定 ”脚本 


上 
# 必 寿 : 
非 MeTmaDD JeseDph 【aranuU 记 - 口 宫 Lveelnorm) 
BEGIMN 1 
FS = "0 
Plankiine = "”[ YE] 上 癌 " 
号 七 习 七 切 LaDK = "*[ AAA 廿 ]+[n ANA]+ 
三 七 站 ELwCraS = "xf[ AE]+" 
了 


SS - plankline T 
IT tyYPe == bb” ) ， 
EuUt1Linel CULYLInE “na 1) 
后 荆 虽 人 





Put1inet 吉 虽 juSsc IDUELIDE，EYyDpe ) An )》 
弟 Dt1imel nm 1) 
站 ETILnE = 


了 
SD ~ Sartplank 
IE f Dutl1ine !=- "”， 
IE EYBe --  ”) 


Put]tne1f DuclLine "xn" )} 
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已 上 S 扎 
3SLt_Lnet aq]JSL SUL1LTnES，tYBPe 1) Am 1 
】 
于 LSEwor 了 3 = 
1 = 工 
while f SuURhstt tt Sn， 1 ”SEE ) 
frstworad - rstwcra subhsktrfi S0，1I，1 》 
1+。 
】 
jnine -Subzrrlt 5S0， 1 1) 
ULLLDEE = 工 LIotWwOLF 芭 
nmE = SPLItI In1ine，wotrd [AI+" 1) 
for fi=- 1 1 <- mnEi ir+ 1 


IE1rL==-】1 1 
本 让 S 二 Sn = en 可 th Cutline war 站 [z] )} 


} else 革 
[全 欠 t1en = engthl outlLine "wera fl ) 
IE 《matcephl ”1337 SUDSrrf oz1ine， 


Lengthil cutline )。1 ))1 
十 已 号 妇 工 二 mL + 十 


LT 1f LestleI > Inelem ) 1 
PutL1Limefl acJugrf Out In tyYyPpe ) "aa 


它 UE1Line = 
】 
If [( Dutline == "”")} 
Dutline = wezra[il 
Else it (1 == 1 ) 
cut1line = autline word[i] 
号 SB 《 


IE 1 matchl ”-13379， "An SUpstri ouUL1LInG， 
1engtht outline }，L )) ) 


outline = Dutline " "word[il 井 2 个 守 格 
尼 虽 忆 
Out1line = DutLine ” “Wero fl 并 工 个 宏 格 


S$D ~ Sarkwozas [ 
DEL = SB]IiE 1 SO，wDrG，"[ YE]+” ) 


tcor {1= 1 1<= nt ir+h 1 
if Tine == ""” 1 
testlen = 1en 急 hh wocradlil ) 
全 JS 
七 全 3 二 em = 工 en 可 hi euUt1iTmne ”Werafi]l ) 
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斌 match "3 AAA SUPerl Dubline， 
1engthnieutline )》，1 )) } 
七 们 后 上 二 后 站 + 
了 
FE 1 xcegsLlehn > inelent ) 
了 ELIinET aqjxusti CitLine，LPe ) Ann" ) 
局 Jiane = 
了 
IE 1 wutLine == "" 》 
ouzllne = worg[il 
else 1{ 
It f mater( " .19337101 SUSstrl Cut1mn， 
TenSthf Outline )，1 )) 1 
autline =- Dutline ” "werQaril] # 3 个 裕 
所 ] 写 亿 
outline =- outline " "woralil # 工 个 室 署 
1 
} 
目 
ENED 工 
让 1 Eye == "DP } 
PuElLineft autlins "An 
切 】 宫 己 
Putlinel agjustf outLine。Eype ) "mv 》 
了 
着 
# 支持 国 数 
提 


tunetion PuUELinelline，fmt ) 


T 
IT f ziznaent } 工 
fmt = "和 省 ”naenr " 呈 SB 
世 zinttEr fmt，"”"”，1Line } 
】 已 1Se 
DBPrFintEr "8 ，1ine 
了 
functIonm 总 口 ]USLT 1 了 了 和 白 。， 上 yb 扣 ， fiJ1，fFmt 1) 
[f 


IE it tyree !- "1") 
在 11 = 二 meTEm 一 卫生 T 划 芋 岂 人 工 荆 站 已 了 
IE TI Ell > 站 工 
I ( typBe == "ee 
fmE = "对 * 1 在 11+1) 72 “与 争 S” 
]InBe = SDrinmtfl ta，"”"，1ine ) 
] 全 LS 12 { tyBe == "1 攻 
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frrt - " 语 工 21L1 SS" 

1 2ne - Srinrff fnL，”"，_ire ) 
已 ]SC 1 上 tyBe == “ ) 

Jine ~- fillcutt :ine，fil] ) 


工 伺 站 IE 工 二 :1 生 


土 Hmeztiemn 夺 1 ie，TFeeG， ji，newline，， nextchar，blankeeen } 
上 


while (meaea ] 了 
TewTine = 
妨 ]amKSeen = 站 


1 1 edifr =- 1 
Ecor 1 = 1 3 <=- Lengkthl LIine )，1++) 1 
mextehar = SUbSstrt 1ine，i，1 
iiE (1 meed ) { 


ii ( nextehar == "") 二 
iE 1 4 DbLlankseen ) 
new]ine = Itewline '" 
mee 台 一 
PiIankseEn = 
了 
} ese + 


DJLanKSeen = 蜂 


上 
了 斌 WiTe = 站 所 Wi Te It 名 xc 拉 aa 


} elSe it if gtr == 1 ) 1 
for t1 = Lengtht line ):， 1 >= 1: 
meXtehar = SUbstrf tne，i， 1 ) 
If ( meeqd ) 上 


it 【 mexrktehar -=- '") 二 
if ! bankseen ) 1{ 
TIeWwlLine = ' " DelILRe 
了 已 如 可 - - 
Diankseenmh = 1 
】 
】 局 JS 全 


blankseen = 自 


】 


刀 且 W 了 并 只 E = 也 它 其 ELChBaT HeWLire 


1 


ine = mewlime 





QI =- -gr 
】 


reruTrr ] Ine 


程序 adj 的 注意 事项 
这 个 小 的 文本 格式 程序 对 于 应 用 文本 编辑 器 的 用 户 来 说 是 一 个 很 好 的 程序 。 它 双 许 
你 设 萤 行 的 最 大 宽度 和 调整 段落 ， 因 此 可 以 用 来 格式 化 邮件 消息 或 简单 的 信件 。 


adj 的 shelt 脚 本 设置 所 有 的 选项 , 尽管 这 可 以 在 BEGIN 过 程 中 通过 读 取 ARGY 来 
完成 。 使 用 shell 建立 命令 行 允 数 对 那些 熟悉 shell 的 用 户 来 说 可 能 更 容易 。 


没有 对 adj.awk 脚 本 代码 进行 注释 使 它 谈 起 来 比 其 他 程序 更 困难 。 BEGIN 过 程 将 3 
个 正则 表达 式 赋 给 变量 : blankline，startblank 和 startwords。 这 是 一 个 好 的 技术 
(这 是 用 于 在 leg 规范 申 的 技术 )， 因 为 阅读 正则 表达 式 较 困 难 ， 而 通过 变量 名 可 以 
知道 它 匹 配 的 是 什么 。 记 住 , 现代 的 awk 充 许 你 在 变 芋 中 将 正则 表达 起 作为 一 个 字 
符 申 。 


这 个 程序 包括 3 个 主 过 程 , 它们 可 以 用 它们 匹配 的 变量 来 命名 .第 一 个 是 blankline， 
用 于 处 埋 当 过 和 双 一 个 空 行 时 收集 的 文本 。 第 二 个 是 starthlank ， 用 于 处 理 以 空白 字 
符 【空格 或 制 表 符 ) 开始 的 行 。 第 二 个 是 startwords， 用 于 处 理 文本 行 。 基 本 过 程 
是 读 取 一 行文 本 并 确定 在 这 行 中 要 填充 多 少 个 单词 ， 给 出 行 的 宽度 , 输出 将 要 填充 
的 那些 单词 并 存储 将 不 在 变量 outline 中 的 那些 单词 。 当 读 取 下 一 个 输 人 行 时 ， 
ontiine 的 内 容 必须 在 那 行 输出 前 被 输出 。 





图 数 adjustO 根 据 命令 行 选 项 设置 的 格式 类 型 来 调整 文本 。 除 了 类 型 “|"”( 志 对 齐 ， 
右边 术 规 则 ) 外 其 他 所 有 的 都 必须 被 填充 。 因 此 ,这 个 销 歼 要 化 的 第 一 件 事 是 通过 
从 指定 的 行 长 庶 中 天 去 当前 行 的 长 度 来 计算 需要 “填充 ”多 少 。 它 恰 当 地 使 用 了 
sprintfO 国 数 对 文本 定位 。 例 如 ， 要 对 文本 居中 ， 齐 | 的 值 (加 1) 被 2 整除 来 决定 
在 行 的 每 边 需要 填充 的 数量 。 这 个 数值 被 作为 sprintf(O) 的 参数 传递 给 变量 fmt， 


fmt = “" 富 ， 1 计 上 +3172 3S 允 B" 
ine = 35brinbE FnE。 "Tinel 


因此 ， 用 空格 来 填充 -个 字段 ， 这 是 需要 填充 的 长 度 的 “ 半 。 


胶 本 的 汇 让 四 373 








如 果 冯 本 是 而 对齐 的 , 用 fi 的 值 来 填充 这 个 字 展 。 最 后 , 如 果 格 式 类 型 为 "tb( 块 信 ， 
那么 调用 函数 年 Iout 来 确定 在 行 的 哪个 位 置 诡 加 空格 。 


再 次 仔细 观察 这 个 穆 序 的 设计 .可 以 看 出 函数 的 用 途 是 如 何 有 助 于 理解 程序 的 . 有 
助 于 了 解 主 过 程 如 何 用 于 控制 程序 的 输入 度 , 而 子 过 程 用 于 对 输 人 进行 处 理 .将 "处 
理 ” 和 控制 访 分 开 有 有 盟 于 程序 的 可 读 性 和 可 维护 性。 


在 过 去 , 我 们 不 知道 为 什么 字段 分 隔 符 FS 在 BEGIN 过 程 中 被 设置 为 换行 符 。 这 就 
意味 着 字段 和 记录 分 隔 符 是 相 阅 的 【也 就 是 说 ，$0 和 $1 相 间 的 )。 国 数 split0) 用 
于 使 用 册 袁 符 或 空格 作为 分 隔 符 将 行 分 隔 为 字段 。 


mE > SDLiTT SC，wPFG，"[ ALI+' 1 
字段 分 隔 符 能 鲍 被 设置 为 相同 的 正则 表达 式 ， 如 下 所 示 : 
FS= “[ At]+9 


使 用 默认 的 字段 分 割 将 会 更 有 将。 


最 后 ， 使 用 困 数 matehO 千 找 标点 符号 是 无 效 的 ， 使 用 血 dex(O) 将 会 更 好 。 


readsource 一 一 将 程序 源 文件 格式 化 为 
troff 格式 


由 Martin Weitzel 提供 


我 经 常 准 备 技术 文档 ,尤其 是 为 课程 和 辅导 。 在 这 些 文档 中 , 我 经 常 需要 打印 不 同 
的 源 文 件 (C 程 序 ，awK 程序 ，shetl 脚 本 和 makefiles)。 问 题 蚌 这些 源 文件 竖 常 随 
时 间 而 改变 ， 而 反 印 时 总 希望 用 最 新 的 版 本 。 我 也 希望 避免 做 排 字 工 。 


当 我 使 用 可 of 做 文本 处 理 时 , 将 源 文 件 包含 在 文本 中 是 很 容易 的 。 但 有 些 字符 ( 炒 
其 是 当 ““、“-” 和 “,” 出 现在 一 行 的 开始 部 位 时 ) 必须 转 浆 以 阻止 被 troff 解释 。 


我 经 常 从 源 文 件 中 摘录 而 不 用 这 整 的 文件 。 同时 也 需要 一 个 机 制 来 设置 分 页 符 。 是 
的 ,也 许 我 是 一 个 完美 主义 者 ,但 我 不 希望 看 到 一 个 C 程 序 打印 满 一 页 ， 而 在 下 -- 
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页 中 只 有 番 余 的 卫 行 。 因 为 我 经 常 修改 文档 ， 我 不 能 查寻 到 一 个 “好 的 ”分 页 符 
一 一 这 必须 自动 完成 。 


为 了 解决 这 些 问 题 , 我 编 二 了 一 个 过 让 器 来 预 处 埋 浙 文件 , 以 将 其 包含 在 tro 介 文本 
中 。 我 这 封 信 发 送 的 就 是 这 个 awk 程序 。( 他 届 有 给 这 个 程序 的 名 宇 ， 这 里 就 命名 


为 zegtdsDpmarce。) 


使 用 makefiles 末 个 过 程 将 更 自动 化 。 我 将 源 文 件 的 预 处 理 版 本 直入 到 troff 文 档 中 ， 
并 且 根 据 这 些 预 处 理 文 件 制定 了 格式 。 而 这 些 文件 又 依赖 于 它们 的 原始 棒 式 ,因此 
如 系 我 “安排 ”文档 来 打印 ， 预 处 理 源 文件 将 检查 它们 是 否 仍 为 当前 文件 ; 否则 将 
通过 它们 的 原始 文件 来 生 成 新 文件 。 





程序 用 注释 的 形式 给 出 了 一 个 完整 撒 述 。 得 是 这 些 描述 对 我 来 说 太 多 而 对 其 他 大 则 
不 然 ， 我 将 给 你 一 些 线索 。 基 本 上 ， 这 个 程序 简单 地 监视 一 些 字符 , 例如 “\” 被 转 
变 为 “e”, 并 在 每 行 的 前 面 写 上 “\&”*。 和 制 表 符 被 扩展 为 空格 ( 它 有 一 个 转换 )， 浆 
可 以 在 每 行 前 面 生成 行 编号 ! 可 选 的 转换 )。 这 些 行 编号 的 格式 可 以 用 一 个 环境 变量 
来 设置 。 





如 果 你 希望 只 处 理 文件 的 一 部 分 ,你 可 以 用 两 个 正则 表达 式 【 用 另外 -个 开 关 } 来 
选择 这 些 部 分 。 你 必须 标识 要 包含 第 一 行 或 不 包含 第 - 行 。 我 发 现 这 是 很 实用 的 : 
如 果 你 只 想 显 示 C 程 序 的 一 个 特定 的 函数 ,你 只 需要 给 出 这 个 函数 定义 的 第 一 行 和 
下 一 个 函数 定 多 的 第 …… 行 。 如 果 这 个 源 文件 改变 了 , 在 两 个 函数 之 间 播 人 新 的 函数 
或 这 两 个 函数 的 次 序 改 变 了 ,那么 材 式 下 配 将 无 站 正确 工作 .。 但 这 草 通 台 于 -个 稳 
序 中 经 常 有 的 小 的 改变 ， 


最 后 一 个 特点 是 正确 地 得 到 分 页 符 , 这 有 点 复杂 。 这 里 使 用 了 一 个 技术 ,我 称 它 为 
“你 可 以 在 这 里 中 断 。 那些 点 被 标记 为 特殊 的 行 【 我 在 C 程 序 中 用 “/a， 在 awk、 
naw、shell 和 makefiles 等 中 用 “## 王 )。 这 些 点 是 如 何 标记 的 并 不 重要 ， 你 可 以 用 
你 自己 的 约定 , 但 它 必 须 使 一 个 正则 表 返 式 能 恰好 匹配 这 种 行 而 不 是 其 他 的 行 【 举 
例 来 说 ， 如 果 你 的 源 文 件 中 的 空 行 都 可 以 解释 为 分 页 符 ,， 那么 你 就 可 以 很 简单 地 将 
这 个 方面 贯彻 下 去 ， 而 所 要 和 做 的 仅仅 是 绝 写 匹配 空 行 的 正则 表达 式 )。 


在 所 有 标记 行 之 前 ， 一 个 特殊 的 序列 将 被 插入 ， 这 又 是 由 一 个 环境 变量 给 出 的 , 通 
过 troff ， 在 我 包含 那些 预 处 理 文本 之 前 , 我 使 用 打开 “ 旺 了 未”{.DS) 的 技术 , 并 在 
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了] 





任何 我 起 接受 分 页 符 的 地 方 畦 入 了 一 个 关闭 【.DE) 和 重新 打开 1.DS) 显示 。 完成 
这 以 后 ，tro 玫 将 收集 尽 可 能 多 的 行 以 填充 到 当前 页 上 。 我 猜 而 对 其 他 文本 处 理 器 ， 
存在 相 点 的 合适 的 技术 。 


井 1 “bimyaeh 


井 
间 


井 得 慎 


厘 厘 


井 井 井 井 井 井 砷 捍 


捍 音 


砧 厅 非 梓 非 亲 井 霜 间 厘 并 划 非 拉 人 养 井 丫 间 井 间 间 厅 和 阳 了 估 厅 厅 和 


dr ierrrRTYEETEE ITIE raad why arrrr， 


CopyIISHL “930 by XRDV-BeraLung Martin Weltzel，D-6loD0 Da 


SHmSCRIET: SOUTCE 士 吕 TYTOTEE PT 所 -TDTPna 二 十 号 


这 个 程序 是 岳 行 头 误 件 的 - -个 工具 ， 所 以 它们 能 

被 包含 在 nrcEffAtroEf-inpukt 中 ， 当 在 mroffytrott-input 中 
包含 任意 的 文 俐 寺 将 会 在 行 中 出 现 合 希 

如果 有 修改 ， 以 点 【 : ) 或 单 引 号 《 ) 或 与 长 

相 鞠 的 字符 ， 此 外 从 伐 人 的 反 娃 本 开始 。 

当 嵌 改 源 文 件 上 而 的 同业 -一 个 也 不 会 出 现时 

可 以 处 理 -- 些 其 他 的 事 

包括 行 的 个 数 扩 选择 有 址 的 部 分 





USRABBE=- "8$D [-x 总 [nl [ jb Batl [-e Pat] [- Patl [tile .,.] 


提 坚 : 
下 面 是 提 拱 的 选项 : 
< 日 将 制 袁 行 扩展 为 “a” 个 京 格 
-了 济 行 的 六 数 1 大 看: NFMT) 
-b pat 从 包含 “patr” 的 行 开 始 输出 
其 中 包含 这 一 行 《 积 认 开头; 
-e Pat 在 包含 “pat” 的 行 结束 输出 
其 中 不 包括 这 一 行 【 软 认 在 结尾 ) 
-B Pat 帮凶 含 “pat” 的 行 的 前 面 
是 能 有 分页 符 ! 上 默认 没有 分 页 符 ) 
“pat” 是 awk 提供 的 “扩展 正则 表达 式 ” 
于 而 是 环境 中 使 用 的 蛮 灵 : 


NFMT SPecity 人 ormat for 工 ime murbers (DeEau1ltiSce 


TS 


belowy 


PRBRK 中 工人 可， 上 总 轴 直 工 K 了 PaG DrFeBkS- 1 办 etEaullc :See Delow) 


何 处 理 ， 
普通 的 UNIX 坏 境 ， 包 插 awk。 


灵 告 : 

“oat” 和 在 使 用 前 宙 有 被 测试 过 

(在 发 现 门 题 前 .已 经 开始 处 理 )。 

刻 果 使 用 -和 灶 拌 ，“NFMT” 必 有 珊 

包含 :个 %a 榜 忒 的 说 明 符 

作 “NEMT” 和 “FEBRE” 中 ， 其 中 所 含 的 役 引 号 必须 在 前 面 

加 上 反 斜 打 作为 转交 符 - 

在 “Pat".“NEFMT” 和 “PBRK” 中 艇 人 的 制 表 特 和 换行 符 必 须 写 为 vt 和 An 
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上 反射 近 下 被 输出 也 必须 用 了 两 个 
上 【后 者 只 在 些 特 殊 情 况 下 是 和 再 页 的 ， 阵 对 二 他 情 襄 册 证 有 伤害 ) 
长 
# 
# BUGS: 
上 但 可 能 被 作为 -个 更 快 实现 的 原型 。 
# 天 在 处 再 反 料 古 的 代价 是 很 兄 贮 的 ， 
# 而 这 也 可 以 用 sea 的 ssvezg' 来 处 理 ， 
# 怕 制 考 知 的 扩展 是 更 困难 的 ， 央 为 我 无 法 想像 用 sed 
# 刻 何 来 处 印 它 。 如 果 你 不 需要 制 袁 符 的 打 民 ， 你 可 以 修改 程序 
# 另外 一 个 阮 举 是 
# 利用 Ssaptl 这 些 招 程序 的 环境 限制 于 mawk 中 。 
插 
如 时 有 其 他 的 错误 ， 请 发 信 给 我 
二 ! 
+ 作者 MaTtin Weitzel,D-6-00 DR (martingrmrwkech OUCE 
阅 
+ 改行 : 235.Nov 1989 年 11 月 25 1 上，t1.00 版 
+ -~------------------------ 
# 1CSOPT 
并 ----------------------------------- 
测 戈 ， 设置 选项 
# ~---------------------------------------------- 


了 X 忆 世 让 = 口 也 Et 上， 久 记 证 上 = Pat_ 百 证 二 古 一 
tor P 

卫 品 

袜 站 站 避 二 SK 工人 

-) Shift SKk=07 conEinue 


已 S 总 安 
安 吕 和 折 区 1n 
=- 区》 SPhIEL， 
C 志 5 已 占 ] 工 世 
[1-9]11[0-9]) xfabs=-Sly sk=177 
“人 >&2a echo "30 jpaQ value for coPticn -X: S1"， exir 1，》 
已 Sae 
-1 ft = " 台 [NEMT : 一生 白 3G>wvei" yy gh- 下 
~b) ShiEt7 bpmat=S17 SK=1 7T 
-1 SRIEt ;人 Dat=g 丰 17 SBK<1T :: 
- 吕 ) Shifty PPpat=St: Sk=1 :) 
--)} ShIFt7 break 17 
二) PTEBK 
所 与 去 允 
Qcone 
# MPROC 
# -=------------------------------------- 
上 下 而 是 “ 店 正 的 起 作用 的 工作 ” 
# ---------------.----------------------- 
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wwH 
基 - 为 制 表 符 扩 展 ， 分 页 征 和 选择 做 次 省 
REGIIN 苹 
TIxL -78SXLSbsrh) We fengtt isD)< xt) SP =- SB "5; 
ERRK - ”3TPBRKE-  DEm-D3SvTm 


“人 DBPatz+ Skipb = 1 "17 
} #! 限制 竺 译 范围 
了 


上 


“和 【EPaEi+ 【Skip 玫 0 ~ Sepato 


SK2Dp = 1 717 


PPatzr 【SKIP ESD ~ 7 SbPat' ASKLR =- 0 


工 硅 【SKTDT mexL 


QQ3Ip) 


了 
# 了 按 要 求 处 理 … 个 输入 行 
{ 
line =- "":， 1] = 0; 
for Il - 1:* <- lengthi 1L++) 1{ 
= SUPSETTSD， 二 ， 1 
1 二 【《xKtL 近 下 == "sc 
井 全 XBaanO 十 总 久 S 
nsPp = 和 -11 志 xf 
1ine = lane spStr1SD， 
了 += IIS 中 7 
】 
ELSEe 
if IC -= "CC = 
1ime = Tine Cl 
】 1+r+1; 
】 
了 
] 
# 节 后 打印 读 行 
[f 
“1PPatr + IE TS 人 ~ PPaL Pi PEInEET 是 S"，PBRRK 
“mEm 世 :+ 人 mt 二 人 人 SnEmt" MRI 
五 并 让 本 下 ，AA 芭 生 避 有 】 站 ) 
} 
， 


要 用 实例 测试 它 是 如 何 工 作 的 , 我 们 运行 readsoaree 来 提取 它 自 己 的 -部 分 程序 。 





S 于 相册 订 自 OUECB “其 了 -上 “ 革 工 站 记 站 昌 日 加 攻 日 工科 妇 人 一 总 “于 用 肌 ] 了 有 工 半 D 七 ” 工 检 下 志 日 OUI 作 想 


As#， 按时 求 处 理 :个 输入 行 


忆 瑟 上 

忆 下 Lines = "1 = 日 ; 

YE Eor 位 = 1 <=- LEength; 1++) 1{ 

5 吕 = SuUpSstr1SD，1T，TL) ， 

区 IE 人 > 在 = YA 

村 # 扩展 制 考 符 

可 Is 户 = 号 -11 皇 3 

以 3inme = line subpstrisPp，1，Dmeplry 
飞碟 ] 1 -上 - msPi 


飞 攻 
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和 全 
1 二 


本 口 ]Se 

1f IC == ”AAA CE 
人 ]1re - 1ine Ci 

尺 区 上 上 -+ 

区 了 

下 } 

人 


程序 readsource 的 注意 事项 


片 先 ,这 个 程序 大 非常 有 用 的 ， 因 为 它 能 帮 有 勒 我 们 准 和 省 本 书 中 的 列 次 。 作 者 真正 地 
延展 了 【旧版 的 ) awk 的 局 限 , 使 用 了 shel 变革 向 程序 传递 信息 。 虽 然 能 解决 问题 ， 
但 很 不 清楚 。 


这 候 程 序 运行 很 得 。 我 们 接受 了 作者 的 建议 , 改变 了 程序 中 替换 制 表 符 和 反 斜 杠 的 
方法 。 原 始 积 序 用 的 是 有 字 符 的 高 代价 的 比较 ,使 用 函数 substr0 获 得 字符 《〈 即 上 
面 的 例子 提取 出 来 的 过 程 }。 它 揭 性 能 表明 了 在 awk 中 一 次 一 个 字符 地 读 取 一 行 的 
代价 是 多 么 品 贵 ， 其 中 一 些 在 C 中 是 很 简单 的 。 





在 readsoumrce 上 运行 它 将 产生 下 面 的 时 间 ; 


呈 七 IeX FeadsDuree -X 了 eaadscurce > /gewnnal1 
Te 有 ,55 

LSETIT 了 , 立 2 

SYS 自 .2C6 


在 nawk 中 使 用 胃 数 gsubO 可 以 改写 这 个 过 程 中 对 制 表 特 和 反 钳 杠 的 处 理 方法; 


#+1 技 监 求 处 且 一 个 输入 行 
{ 
E Xe SS0 ~"AE” 
呈 SUD TY AL SD) 
让 
SUPTAAAT ”AAS1 
] 


最 后 一 个 过 程 需 蜂 艇 -些小 的 改变 ,用 "*$0" 代替 变 量 line( 我 们 不 用 痢 时 变量 line ) 。 
nawk 版 本 的 结果 因 : 

$ 七 imeX Taaagcmrece-2 -X 3 Feageource > /aevrnul1 

工 己 忌 荆 门 -中 半 


山 与 已 二 癌 -] 昌 
品 匀 局 站 .了 


rrp 了 er ErerigF WAY L iirrirrenirrrc 一 rrqrrirHirranrriigeeeeepidiiiigirrreryrriHiamerr 一 一 一 一 一 一 一 -一 一 一 一 一 一 一 一 一 一 一 一 一 
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区 别 是 很 明显 的 。 


最 后 可以 通过 和 dex0O 查 找 芭 和 斜 杠 以 提高 速度 : 


#1 按 紧 求 处 埋 个 输入 行 
ff 
守 【FE E ImQexiSD AL) > 站 
昌 EUD TY YL SR) 
宇 研 【GeXTS， "YA > 区 
窗台 LT 


gent 一 一 获得 termcap 条 目 


由 Tom Christiansen 提供 


这 是 -个 sed 脚 本， 我 用 它 来 提取 一 个 termieap 条 目 。 它 可 以 处 理 任何 和 termeap 
业 似 的 文件 ， 例 如 ，disktab 。 举 例 说 明 : 


S gent YLOD 


从 termecab 中 抽取 vt100 条 目 ， 而 ; 


上 可 BDRH 日 昌林 上 全 所 凸 避 7 二 计生 其 志 有 了 


具 disktab 中 得 到 一 个 eagle 条 目 。 我 现在 知道 它 可 以 在 安 或 Perl 中 完成 ,但 我 是 在 
很 入 以 前 做 的 ， 它 间 sed 脚本 传递 参数 的 方式 也 很 有 喜 。 我 知道 : 它 本 应 该 被 写 人 
到 5 而 不 是 cr 天 中。 

#41Dinncsh -下 

号 全 上 局 工 和 避 = 写 井 昌 工 可 


Se TGSLeb 
Se dollar = “号 ， 


号 Et SGqUeezf = 站 
马 忆 上 DOback= "TDSDPace= 
工 它 SC 
IT | Sargc > 中 58 gargc < 了 )】 hen 
2T "Sr*) Enen 
(SSUee2e" =- 号 1+r ) 古 Penm 


SRF TDaCKX= SA TDSPaCE- SA [ ]s71 
E 所 LSGUESEZ 人 = 
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Se 


Sha1l 开 七 
得 argc -一 
可 已 工 已 S 己 己 忆 

后 | 生 忆 
CC "Ba Siteh: S1" 
可 EO SS 忆 可 忌 

Rncql 于 

号 刀 马 1 上 


Se emntry = “"$1“ 
IE 1 $argCc == 1 上 上 hen 
和 BE fi1Le = /eteztermea 户 
全 二 台所 
SeEH 于 Te = “ 夺 27 
号 阐 忆 上 
包 已 
Usage 


局 “USBNG: “baseTane Sh” [-SqUeeze] Sntty [termcacfi1e]， 


和 交工 
nit 
- -所 


"24STeneryl [| :人 


人 


了 区 

人 《可 台 工 可 

Sneobaeksy 

上 fnOSPacelnv 

Tv 

Ts 

Dx、 

} 

扣 荆 站 名 所 贡 总 CE 

巴 * 

Ts 

CT 
Pay 

上 

) 

]*13Tentryl [| :1 1 

2YY 

ASTGEC1ILaEA 人 

台 《 PICObDacKT 

号 fmc3spacels 

卫 * 

了 

JP 

) 

负 了 全 站 有 Ce 

书 、% 

、 

人 

bw 
】 
] ”< S 夺 Je 
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程序 gent 的 注意 事项 


当 和 你 习 懂 了 阅读 awk 烤 本 时 ， 它 们 看 起 来 好 像 除了 最 简单 的 sed 法 本 外 ， 比 任何 其 
他 的 程序 都 容易 理解 。 从 上 面 所 显示 的 这 个 小 的 sed 程序 来 断定 出 它 止 在 处 理 什 委 
是 一 项 艰苦 的 任务 。 


这 个 脚本 展示 了 如 何 将 shell 变量 传递 给 -个 sed 脚 村。 变量 用 于 将 可 选 的 sed 命令 
传递 到 程序 中 ， 与 替换 反 斜 打 和 空格 的 替换 命令 一 样 。 


这 个 脚本 可 以 用 几 种 方法 简化 。 第 一 , 用 两 个 止 则 表达 式 来 提取 条 目 似 乎 是 没有 必 
要 的 。 第 一 个 正 配 在 行 的 开始 处 的 条 目 , 第 二 个 匹配 行 申 任何 其 他 地 方 的 条 目 。 即 
使 这 两 个 正则 表达 式 都 是 必要 的 ， 标 记 为 二 和 了 的 循环 也 是 相同 的 ， 我 们 可 以 使 它 
们 转移 到 相同 的 循环 中 。 


plpr 一 一 行 式 打印 的 预 处 理 器 


由 Toem Van Raalte 提供 


我 想 你 可 能 会 将 下 而 的 脚本 用 于 办 公 。 它 是 -… 个 行 式 打印 的 预 处 理 器 , 用 于 将 输出 
发 送 到 “最 好 的 ”打印 机 、( 这 个 shell 肝 本 是 为 BSD 或 Linux 系统 编写 的 ， 你 可 以 
在 使 用 印 r 的 地 方 使 用 这 个 命令 。 它 读 取 !pq 命令 的 输出 结果 , 以 确定 指定 的 打印 机 
是 否 可 用 。 如 果 不 能 用 ， 它 测试 一 系列 的 打 钱 机 ， 和 确定 其 中 哪个 是 可 用 的 或 哪个 是 
最 不 从 的 。 然 后 调用 lpr 将 这 个 作业 送 给 该 打印 机 。) 


此 1 全 ms 

们 

# 设 填 临时 文件 

MBE= /zip7F1TESUI SS 
TSEERWRITER= 训 .站 SS 和 FIWRTTFR-DS} 
# 粒 查 看 看 默认 的 打印 机 晤 理 空 内 

# 


和 
FRED 训 = 1PJ -PSLRASERNEITER | awk 
fi TSD =- no entt1Ies*) 
T 
VvL=1 
3EILERL Ya 了 
已 XIL 日 


所 本 所 
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VBl= 笑 
oTim 二 waI 
XIt 站 
了 
1 
# 喇 | 应 Free 是 SFREE 


井 


站 时 软 认 打 印 机 尘 凋 ， 那 双 谍 由 sFREE， 半 打上 和 退出 


坦 


ii 【 SFREE -ec 扣 1 ] 
七 De 
SELECT -SDDSERNWRITER 
# 辐 | 应 所 选择 的 $SELECT 
1LPBF -PSSELECT 所 * 
扣 区 = 自 
EL 
# 辐 应 完成 进出 


# 现在 ， 炙 续 看 在 哪个 打印 机 空闲 ， 
车 
BANKE-=41BANK-SLaASERNWRITER} 
# 是 | 永 pank 征 汪 BaNK 

# 如 果 BPRNK 与 LASERNRITER 相同 ， 那 么 我 们 没有 选择 。 
耕 则 ， 如 果 有 打印 机 室 亲 ， 就 打印 它 。 





IE 人 "SB3ANK" 二 "LaSBRWRITER"” j 
theD 

SELECT-SLASERWRITER 

了 折 芋 下 和 BDEBCT 研 太 

也 其 站 


工 
酮 记 通 过 测试 Pamk=1aserprinter 


现在 我 们 检查 个 宝 闪 的 打印 灿 
注意 : 当 抽 试 时 ，S$LASERNRITER 为 室 亲 ， 要 对 它 进行 重新 和 刘 试 。 


响应 规 在 我 们 检查 其 他 的 讼 省 是 否 为 空 拥 的 
er 1 in SBANK SASERWRITER 

do 

FREE- 1PG -BESiT | awk 

1 工 主 130 == “了 GD entEIIES" 1 

ff 


rn 井 夺 二 共 世 厅 Hh 


Ya =】 
FEIDmt waL 
人 Xi 蝗 


局 汪 所 姜 
al=D 


了 忆 ict val 
所 XiL 六 


脚本 的 汇总 





和 
1 
ITL 「 FREE -sq ] 
七 卫 它 己 
# 项 1 左 在 往 坏 中 用 si 

SPIECD- 

# 了 腾 应 选 笃 SSE2ECT 
# 如 归 [SFREE，， 5= LASERWRITFER ] 
# 暑 么 
井 
上 

















咯 弃 “和 输出 各 定向 到 打印 机 Si 
fi 
1 有 F 一 开 证 BEDECT 让 二 
己 X1LE 站 
于 
中 me 


# 响 庶 为 时 个 宰 闪 的 役 省 进行 了 检查 
打 


# 刻 果 执行 到 这 型， 则 说 明 没 有 空 亲 的 打印 机 
# 所 以 我 们 疝 # 印 机 打印 最 小 的 字 节 队列 
# 


## 
for li in S$SBRNK SLaSERWRITER 
晤 局 
VBL= 1LBd -PSi |】 awk BEGI 《1 
S 七 坪 上 七 站; 
] 
TEA 二 
吕 七 圭一】 
上 全 X 蕊 : 
】 
【 京 上 让 FE == 了 玫 
七 已 吕 七 =SU 世 三 革 【可口 ， 52 2017 
DTint 七 站 SG 七 i 
) :| ak， 
BESIN 1{ 
SuUmm=n0y 
1 
f 
SUTRmL= 台 LT 号 
了 
END 1{ 
BiInLt Surmmi 
] 人 
三 它 h 训 "有 li SaL"” >> STMP 
如 三 T 它 


SELECT= awk ' (NMR==-) 1 
乌 全 了 局 性 <= 训 1 了 
besc=Sz 

] 

1 < Pest 
SEC = 当 1 7 


unrpmmeeeaa 一 一 
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志 
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jp 所 5 本 己 } 
END 《 
工 过 CE 于 中 二 个 妇 全 


) 
”SP 、 
升 echec 二 3EDECT 


LT 名 定 MP 
现在 在 选 定 的 厅 印 机 上 打印 

时 妆 寺 [SSRTRCT :=- SLRASERNR-TRR ] 
# 那么 

# 啊 点 “输出 得 定 疝 和 到 打针 机 S” 

Ei 
BR PSSBEDECT 生产 

LaaBD “TI 一 二 STMP; ex 937，23 3 15 














程序 plpr 的 注意 事项 


多 数 情 况 下 . 我 们 避免 使 用 这 样 的 靶 木 , 其 竺 本 中 的 多 数 逻 辑 结构 是 用 shell 德 本 来 
编写 的 。 然 而 .这 种 最 小 的 处 理 方法 是 awk 多 种 应 用 中 的 一 个 典 亨 方式。 这 里 调用 
ay 上 只 处 理 那些 sheill 脚本 不 能 完成 《或 者 简单 完成 } 的 事情 。 处 理 一 个 命令 的 输出 
并 做 数字 比较 就 是 这 些 尾 务 的 “个 例子 。 


另外 应 注意 ， 在 未 尾 处 的 trap 语句 应 读 在 复 本 的 起 始 位 置 ， 而 不 是 在 底部 。 





transpose 


由 Geoftf Cltare 提供 


实现 矩阵 的 转 置 


程序 transpose 的 任务 是 对 输入 拭 阵 进行 转 置 ， 我 编写 这 个 程序 是 因为 当 我 看 到 了 
寄 给 Net 的 一 个 处 理 这 个 工作 的 程序 , 但 它 的 效率 低 得 可 怕 。 我 寄 出 的 这 个 程序 在 
时 间 上 相 比 那个 程序 有 了 改善 。 如 果 我 没有 记 错 ,那个 原始 版 本 将 所 有 的 元 素 单独 
存储 ， 并 在 其 夸 的 循环 中 用 prin 世 语句 打印 每 个 元 素 。 我 立即 意识 到 构造 被 转 置 的 
和 矩阵 的 行 是 比较 快 的 ,“ 像 是 坐 飞机 。 


我 的 脚本 使 用 St1+ "Se 在 ak 命令 行 中 给 出 文件 名 ， 如 果 证 有 提供 文件 名 ,那么 


aw 玉 将 从 标准 输入 中 读 取 。 这 个 方式 比 纯粹 的 休 要 好 , 因为 后 者 不 能 处 理 包含 空白 
字符 的 文件 名 。 


脑 本 的 汇总 





1zbinrsb 


上 + “个 市 陈 的 转 各 : 


忆 XeC GEWR 


MR -- 1 IT 
中 = 3F 
tczr 民 
门 全 XL 
} 
了 
II 【NE 
teyr 人 
} 
END 1 
fcer 侍 
”学 t1L+"S$B" 1) 
下 面 是 蛮 试 文件 : 


2 3 了 卫 
百 了 遇 
-0 1 了 2 


假设 所 有 有 的 行 都 有 相 岂 教 址 的 字 息 


1 <= NPF: 14++1) 


> 刀 ] 


row[li]l = SI 

Di = TNF 

1 <= ME， iarr) 
rowfi] = zeow[iI] " "3 


1， 开 < Di Jr+1 
Print ceow[il 


1 
5 
9 
贡 在 我 们 使 用 这 个 文件 运行 transpose。 


起 工 和 四 大 蕊 吕 日 号 七 提 杞 七 


S$ 

1 933 
之 在 
3 ?11 
d4 8 12 


程序 transpose 的 注意 事项 
这 是 … 个 非常 简单 而 有 趣 的 脚本 。 它 建立 了 一 个 名 为 row 的 数组 ,并 将 每 个 字段 追 


加 到 这 个 数组 的 一 个 元 素 中 。END 过 程 和 输出 了 这 个 数组 。 





m1 


由 Jon Bentley 提供 


简单 的 宏 处 理 器 


365 


程序 ml 是 可 在 UNIX 系统 中 找到 的 m4 宏 处 理 器 的 “小 兄弟 "。 它 首先 发 表 在 文章 
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Pr 4Miniaacro Processor，1990 年 后 月 , 《Computer Laaguasgey (第 七 卷 )， 
编号 65、43-61 页 中 。 这 个 程序 是 因为 Dzan Yigit 十 引起 我 的 注意 。Jon Bentley 将 
这 个 程序 的 最 新 版 本 寡 给 了 我 ,以 及 他 的 文章 的 初稿 【我 得 到 已 发 表 文 章 的 副本 有 
困难 /。 这 篇 论文 的 后 记 中 包含 一 个 例 了 予 程序 ， 可 以 在 DReilly 的 FTP 服务 器 上 应 
用 【 参 儿 前 言 1。 我 号 了 如 下 的 介绍 和 程序 的 注意 事项 。[A.R.1 


个 宏 处 理 器 将 它 的 给 和 复制 到 它 的 输出 ， 其 中 要 完成 儿 项 工作 。 其 任务 是 : 


1 定义 和 扩展 宏 。 宏 包含 两 部 分 , 名 字 和 主体 。 在 宏 的 名 字 出 现 的 所 有 地 方 都 用 
它 的 主体 代 欧 。 





2 包含 文件 。 在 数据 文件 中 的 畦 殊 包 含 命令 被 命名 文件 的 内 容 取代 ,。 包含 通常 是 
可 以 能 套 的 ， -个 被 包含 文件 可 以 包含 另 一 个 文件 。 被 包含 文件 被 宏 处 理 。 


3， 有 条 件 的 包含 和 排除 文本 。 文 本 的 不 同 部 分 可 以 被 包含 在 最 线 的 输出 中 , 这 通 
常 根据 是 否定 多 了 宕 。 


4 基于 宏 处 理 器 ， 能 够 出 现 的 注释 行将 被 从 最 终 的 输出 中 删除 ， 


如 果 你 是 一 个 CC 或 C++ 程序 员 ， 你 对 这 些 诸 言 的 内 置 预 处 理 器 已 经 很 碍 悉 。UNIX 
系统 有 一 个 通用 的 央 处 理 器 , 被 称 为 md4, 这 是 一 个 功能 强大 的 程序 , 但 是 不 太 容 易 
掌握 ,因为 安定 义 是 在 定义 时 实现 扩展 的 ,而 不 是 在 运行 时 实现 扩展 的 , 血 芷 比 m4 
简单 得 多 ， 很 容易 学 习 和 应 用 。 


以 下 是 Jon 在 一 个 非常 简单 的 宕 处 理 器 中 的 第 一 个 剪 切 块 。 它 所 做 的 就 是 定义 和 扩 
展 去 。 我 们 将 它 命名 为 由 Da。 在 这 部 分 和 后 面 的 程序 中 ，“at” 符号 【@) 被 用 来 区 
别 镀 指示 的 行 ， 并 且 也 标识 存在 应 该 扩展 的 宏 。 


“deE2nDe YL ] ”1 


mame = S2 
SS2 = Spbiye[ tv” ") 
EYEaD [mame] = 总 D 


了 全 Xt 


Ecor (ii in symcabh 
GESUDP 和" 空 "和 ， symi 二 Sb[i]y 
BEFIRL 


肢 未 的 汇总 
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这 个 版 本 寻找 以 “@define” 开 始 的 行 。 关 键 词 是 $1， 宏 名 设置 为 $2。 行 的 剩余 部 
分 是 宏 的 主体 。 下 一 个 输入 行使 用 next 获 反 。 第 一 个 规则 简单 地 遍历 所 有 已 定妆 的 


宏 . 在 输入 行 用 宏 的 主体 对 每 个 宏 微 全 局 替换 ， 然后 打印 这 行 。 请 仔细 权衡 这 个 版 


本 的 简单 性 与 程序 运行 时 间 。 


下 一 版 本 (mb) 添加 了 文件 包含 功能 : 


tunetrion goftleltnameh 1: 


】 
BEGIN T 


} 


While 1 本 BtLLnE <name > 站 1 

IE 【7 ”BadeEIne[ Al 工 
Tarme = 上 名 2 
S$1L = Sa = 
Symmttab [name] = 5 

] 有 LSeE it T7”Binciuae[ tt] 
QDftileiS2) 

已 55 已 二 
Eor fi In SYymtahb) 


鲜 SUbT" 划 " 工 "在 "， 


TImFC 
} 
】 
忆 ] 台 S 全 【下 站 壮 放 所 


E 【TaRGC == 2) 
deiilelaRGVi1]) 
母 工 纪 
dotilelf "devstain") 


注意 ,通过 递归 调用 gofhle0 来 处 理 联 赛 包含 文件 。 


介绍 了 以 上 实现 方法 后 ， 下 面 是 包 1 程序 的 全 部 代码 . 


1 7Ybinyawk -下 


名 宣 


TI 


用 法 


描述 


ML 将 它 的 输入 文件 无 改变 地 所 制 到 输出， 尺 非 


被 其 个 “ 寡 达 式 ”更 发 了。 下 面 的 行为 后 续 的 处 理 定 尽 宏 : 


# 
间 
和 
间 
间 
提 
间 
提 awk -E ml.awk [file...] 
提 
拱 
捍 
从 
六 
间 


# deftine mame 的 值 


3 Supira[ t+ 


# 了 inctuae 冯 忻 名 
# 在 行 anamee 的 怀 忘 位 痛 


SYRIESDB [IT] 
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晶 己 CTImtEDL 请 mW 此 区 


怎 自 和 ecormment 相同 

吧 避 已 二 De Darme Value 皇 

Baefault mame Yalue 如果 汽 有 定 交 名 字 则 设置 

外 了 人 站 它 1U 可 号 于 斌 工 全 用 吉 mn 后 

及 i 主 srarnmare 和 刘 果 arname != 了 将 包含 后 续 文 本 
站 由 让】 站 总 三 YIGme 如 果 varname -- 站 将 所 舍 后 线 文 本 
白人 和 将 Bit 或 sunless 终 目 

eignore DELIM 和 铂 上 输 人 直到 以 DELIM 开始 的 行 
@sLeaerr Stuf 将 结 来 送 到 标准 错误 文件 


可 以 年 每 行 的 末尾 ， 用 反 土 本 将 定 吕 扩展 到 多 行 ， 
内 此 引用 了 司 而 的 换行 


在 输入 中 册 现 enamee 的 塌方， 在 输出 中 
用 相应 的 值 代 雷 


在 行 的 开始 处 为 ename 被 看 做 与 anamea 机 回 
BUGS 


M1 比 Md 少 六 3 步 ， 你 可 能 将 潮 掉 一 些 
你 所 期 望 的 内 容 


作者 


Jon 了 .Pertt1ey，JjLDbaresearch bpell-1abs.-com 


信条 林 桩 诈 休 人 让 霜 招 世人 此 村- 插 寺 村 计 寺 井 间 间 了 潍 香 半年 蔚 拭 


EuncetiIen error sl 《 
DPIint "ImL TFTOT: ”号 "本 上 荆 > 到 呈 ”， eEXIt 


] 


后 攻 它 十 斌 让 忆 吕 下 斌 工 导 上 甩 如 色 候 ， 号 二 We 二] 台 号 怒 帮 各 h 丰 在 所 并 ， 站 斌 W 扎 志 工 并 可 区 
工人 王 marme 工 世 电导 斌 VeEI 工 已 3) 


已 工 工 DT " 工 吕 CUTBTLTVETLY TeBding 于 1 "fnmame) 
已 CtIVvetlLlLes [tname] = 工 
Savweftile = file: file = ftname 
5 记 weDuEEter = buEter， butEer = 
while ITreaqdlinet) !=- EDOF) 1 
IE 【inaexfsD，*B@") =-=- 口 1 
ErinEt 往日 
} LSe ifFE (neadetlne[ 7 1 
qodeEi) 


】 已 J8e (7 “NaQctaulel 7 二 
斌 111S2 nm SYmmntab1) 
qodqefr) 
} eeLSe 革 E 17 inceluee[ At]7) 二 
if (INWF 14= 2) errorl hbaob include Line") 
QQofilelaastbs TS2y 1) 
1 所 1 所 工 丰 《7 人 主 [ At] 工 


肚 本 的 汇总 
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马 ] 归 全 


后 1 号 中 
七 二 二 所 


， 已] S 妃 


拓 ] S 台 


马上 S 它 


忆 LOSei Enmarmel 
号 人 Ete 总 CETIVETiles[frmame] 


于 1 全 
Du 于 王 局 


号 二 We 于 二 
号 二 VEDUf 开 ee 工 


TVNFE 1 > 

IE 1411S2 In 

晤 bbP 

了 王 【7 “BUTESS 
TS = 31 

E 12 

台 口 DBDb 

LE 【REITL 
了 工 丰 【7 间 生 七 成 后 上 开 
ErzEL1LRL SUbStt 

二 全 《7 站 《 它 间 TI 


让 Tasazgmnezre[ "tl 1 间 将 输 大 团 断 .在 介 二 2 
本 LIm 一 生 
1 = lenaqthtgellny 
whaile freadaline :上 1 = FEOFI 
1 于 【SDDSTTISL，1T，1) == ae-im) 

ETeak 
1 
TiewansrInag = qqosubafeLl 
1S0 -- mewstring || :adexinewstyringd，" 昌 ") =- 


BE LT 
尼 荆 操 人 
Dutt 


RIIOI 1 EeO 二 E Lone 1) 


snktabl || ssymtab.Szl ==- 01 

它 1) 
7 

忆 ETITCE Taa UIILeesS 1 

Yi 二 B 妈 】 太 SSYimtaBp 5S2] 1= 让) 

LE 

12 SS 1 和 可 以 在 这 里 进 和 错误 松青 
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日， 呈 ) | ”eat 二 > 区 2 ， 


nz|af sa 1 





L_ TIewSt 上 T_T 


， 


Er = DewsfTlng "mn" DuftEer 


# 将 下 -个 输入 行 记 到 全 局 宇 符 哩 “buffer” 中 
# 返 吕 "BoF "或 "7 宇 宁 符 帅 ; 


fanetIeonm TeaaQlLine 
二 已 七 避 台 
【buEESTr 1= 


工 主 


】 


个 


工 ， 


乌 Lat1LS) 1 


由 


= 2nQeX1TPUELELT， 
= SURS 上 TELLE 上 已 六 


臣下 二 二 佐 瑟 


= 怠 U 芒 各 七 芋 【PE 


SatUSs = EDF 


间 "1 
1，1-1) 
er ， It+11 


# 流 有 0 的 特殊 情况 上 : 如果 file =- "aevyatean "1 
工 芋 【SettLme <Ezle <= 人 1 


# 人 允许 BMname 在 以 结 大 的 行 wys 的 开关 


1f 


工人 LUEDm 3 LUS 


EUnCtrTOn DDPBILE 1 
1 TeBp=h 


] 


有 


开 tQaeDprr) 工 


【SN 一 和 [ 疝 - 了 7] [总 -Z 疝 - 吕 让 -和 ] 二 [二 二 名 7 
SUDptr[f At] 名 
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wnee fxroaalinsft !- EOF) 1/ 
TaEIETluntessl[ sr 
工 于 可 全 让 ET- 
t 【7 ”BEY[I At 2 5 二 --tdefrh <= 0) 
卫 工 会 发 


SnCtIOD oswbe 5 ，T，， II， 轿 ) 
IE 3nasxis， 有 ") ==- 0 
TeGtuYn 所 

] = "" 二 当前 佑 的 天 边 ; 崔 省 输出 
+ = 5 # 当前 世 径 的 右边 : 这 次 币 有 检验 
whIlcs Tri - iraextr， ”Br := 门 ]) 上 
1 = 1 substritr，]1，1-1) 
T = SLbetrtI，i+l) # 扫描 当前 的 皇 
1 = inQaeXIT， "四 "1 
-ff 人 IE== 0) 
民 =】 ?*@" 
PITeakK 


] 

mm = gaubBstritI，1，1Ii-l1) 

ET = SbSstriTr，I+11 

2 Im an symtaby 《 

= SYTmtaD [m] 工 

}》 县 1Se 1 
工 - 1】 " 昌 ” 严 


} 


了 
TturDn 】 工 


funek:on QoqeEitiname，sStr，xXh 1 


了 互让 局 一 记 半 
subit*[ tw[A Ar Ac st+[ At 1*7， ") # 旧 的 Bag: 后 过 的 * 是 + 
trY = SN 
whi]le [stzr ~ AAS 
1Ift (reaaqlinef) == BEOF) 
已 工 上 已 工 1 EGRF 了 和 1OG 品 丰 1mI+Icnm 
六 二 S[ 


SuUbitze[ NE + "9 KK 
Str = Supstristr，1，LengSthistry-1L) "sm 工 
号 Yi 上 如 上 [Lam 全 | = 写 夸 芒 


BEGIN { DOF = “ECOF* 
1iE {aRGC ==> 11) 
gofjilel"zagqevrstainm") 
ElRe ifE faRGC >= 2) 【 
for 人 = 1; 工 < RaRGCI I++i 
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acfIilelsaRGSw[I 
]】 局 1 呈 
SrtC isage: ml [ioame...]") 


程序 m1 的 注意 事项 


这 个 程序 是 一 个 很 好 的 模板 , 包含 的 error0 的 数 和 第 十 -… 章 “awk 的 系列 产品 ”中 
介绍 的 相似 ， 量 短 个 任务 被 骨 确 地 分 割 为 单独 的 国 数 。 


主 程序 在 底部 的 BEGIN 过 程 中 运行 ， 如 果 没 有 参数 ， 它 只 处 理 标准 输入 或 所 有 在 
命令 行 上 指定 的 文件 。 


商 级 处 理发 生存 图 数 dofileO 中 ， 它 每 次 读 取 一 行 ， 并 决定 如 何 处 理 每 - 行 。 数 组 
activefiles 跟 芷 每 个 打开 的 文件 ， 变 量 和 ame 标识 读 取 数据 的 当前 文件 。 当 遇 到 
“@include” 指 示 时 ，aofe 虽 只 简单 对 新 文件 递归 调 肌 自己， 和 严 邱 一 样 。 有 趣 的 
是 ,首先 对 被 包含 的 文件 名 进行 宕 处 理 。 仔 细 阅 读 这 个 函数 ， 这 有 : 些 好 的 技巧 ， 


冰 数 reaaline0 处 理 “ 回 推 "。 扩展 - ' 个 宏 之 后 ， 宕 处 理 器 检测 最 新 创建 的 文本 中 的 
任何 附加 宏 名 .只 有 当 处 理 完 所 有 的 扩展 文本 并 送 到 输出 后 , 这 个 程序 才 从 输入 中 
获取 - ' 个 新 行 。 


通 数 dosuobs0 实 际 质 行 宏 的 置 搞 。 它 从 堪 向 看 处 理 行 ,并 用 宏 的 主体 替代 宏 的 名 字 。 
对 新 行 的 重新 扫 摘 将 在 较 高 县 逻辑 构件 中 由 readline0 和 dofile0) 来 管理 . 这 个 版 本 
比 用 在 ml 程序 中 的 方法 费 更 有 效率 . 


最 后 ， 函 效 dodefO 处 理 宕 的 定 允 。 它 将 92 中 的 宏 的 名 字 保 存 起 来 ， 然 后 用 sub0 
出 除 最 前 面 的 摧 个 字段 、 现 在 的 新 值 只 包 含 (第 一 行 ) 宏 的 主体 。《Computer 
Languagey 中 的 内 容 解 释 了 使 用 suh0 的 目的 , 即 为 了 保护 宏 主 体 中 的 空白 字符 。 简 
单 地 将 空 字符 串 赋 给 $1 和 $2 将 重建 这 个 记录 ,但 所 有 出 现 空白 字符 的 地 方 都 被 OFS 
《一 个 空 行 } 的 值 代替 。 国 数 然 后 继续 收集 剩 下 的 安 ， 直 到 遇 到 以 “\” 结尾 指 符 为 
止 。 这 是 对 mm 的 附加 改进 : 宕 的 主体 可 以 不 止 一 行 。 


这 个 程序 的 剩余 部 分 用 于 处 理 文本 的 条 件 包 含 或 排除 , 这 部 分 很 简单 。 比 较 好 的 是 
这 些 条 件 可 以 破 亏 相 嵌 套 。 
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ml 是 宏 处 再 串 的 “个 好 的 开端 。 你 或 许 想 了解 如 何 对 它 进 行 扩 蝶 , 例如 , 允许 在 志 
处 埋 营 中 也 售 “@else” 条 件 ; 通过 命令 行 处 理 宏 定 多 “未 定 尽 的 ” 宏 ， 以 及 宕 处 
埋 器 通常 处 理 的 其 他 事情 。 


Jon Beetley 建议 可 以 做 的 其 他 扩展 : 


1 当 加 “@shell DELIM shell line here"， 这 将 读 取 输入 行 到 “SELIM”， 并 将 
扩展 的 输出 通过 一 个 管道 传递 给 指定 的 shell 命令 ， 


2 增加 命令 “人 @iongdef” 和 “和 @longend”， 这 些 命令 可 以 定 这 长 主体 的 卖 ， 也 就 
是 ,这 弄 含 多 行 的 安 主 体 ， 简 单 化 uodoef0O 中 的 逻辑 结构 。 


3， 增加 “@append MacName MoreText" ， 和 tro 生 中 的 “.am” . 梯 。 在 tro 生 中 
的 这 种 央 将 文本 追 印 到 已 定义 的 安 中 。 在 ml 中 这 盯 用 于 扩展 已 经 定义 的 宕 的 
主体 。 

4. 避免 使 用 YI10Aitevsrain 特殊 文件 ,贝尔 实验 室 的 UNIX 系统 ( 注 1) 包含 一 个 
特殊 的 文件 、 名 为 vaewsrdim， 用 十 访问 标准 输入 。 我 们 正好 可 以 用 “-” 来 实 
现 这 个 技巧 。 如 果 你 用 的 是 gawk 或 Bell Lahs awk， 这 是 不 成 问题 的 ， 它 位 
能 解释 这 个 特殊 的 文件 名 Maewsrain。!( 见 第 十 一 章 ) 


最 后 注意 一 点 ，Jon 在 他 的 是 本 书 中 一 一 《Programming Pearls》 和 《More 
Programming Pearls-Confessions of a Codery (两 本 书 都 被 Addison-Wesley 出 版 }， 
均 使 用 了 awk， 这 些 书 都 是 很 值得 一 读 的 。 


注 1: 和 一 些 其 他 的 UNIX 系统。 











附录 一 
Sed 的 快速 参考 


命令 行 语法 
调用 sed 的 语法 有 两 种 内 式 ; 


Se[ -me] Cement 站 Fefzl 
8 全 [ 有] -六 er 过 下 Fiefsl 


第 一 种 形式 允许 在 命令 行 指定 一 个 绵 寿命 令 ， 用 单 引号 括 起 来 。 第 二 种 形式 允许 指 
定 - ' 个 seriptiie ， 即 包 禽 sed 命令 的 文件 。 两 种 形 蕊 可 以 一 起 使 用 ， 并 县 它 们 可 以 
被 多 次 使 用 。 编 辑 的 结果 大 将 命令 和 脚本 文件 绅 联 起 来 。 


下 面 是 可 识 册 的 选项 : 
-下 
促 打印 用 P 命令 或 8 命令 的 标记 指定 的 行 ， 
区 | 
下 一 个 参数 是 编辑 命令 。 当 指定 多 个 脚本 时 很 有 用 。， 


-二 IJe 
下 一 个 参数 是 - -个 包含 编辑 命令 的 文件 。 
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如 果 脚 本 的 第 一 行 是 “#m"， sed 将 接 -指定 的 方式 工作 。 


频繁 使 用 的 sed 脚 本 道 常 是 痢 过 shell 脚 本 来 调用 的 。 这 对 scd 和 awk 来 说 是 相同 的 ， 
参见 附 孙 一 “awk 的 快速 参考 ”中 的 “用 sheil 实现 调用 awk” 一 节 ， 


sed 命令 的 语法 
sed 丛 令 的 普通 形式 为 ， 


[acdqress[.eddress]j[1jcommarmeaiarganmentz] 


sed 将 每 个 输 人 行 持 内 到 一 个 模式 空间 。 sed 指 令 由 地 址 和 编辑 命令 组 成 。 如 果 命 令 
的 地 址 和 模式 室 间 中 的 行 匹 配 ， 那么 这 个 命令 将 被 应 用 于 匹配 行 。 如 果 -个 命令 没 
有 地 址 ,那么 它 被 应 用 于 每 个 输入 行 。 如 果 :个 命令 改变 了 模式 空间 的 内 容 ， 后 续 
的 命令 地 址 将 被 应 用 十 模式 空间 中 的 当前 行 ， 而 不 是 原始 的 输入 行 ， 


模式 寻 址 


地 址 可 以 是 一 个 行 号 或 是 由 斜 杠 包含 着 的 “个 寞 式 (1parrtern 门 。 模 式 是 用 正则 表 
达 式 描述 的 。 另 外 , 习 可 以 用 来 与 模式 空间 [IN 命令 的 结果 》 的 任意 换行 符 匹 配 , 但 
模式 空间 底部 的 换行 符 除 外 。 


如 举 没 有 指定 模式 ， 相 应 的 命令 将 被 应 用 于 所 有 的 行 。 如 果 只 指定 了 一 个 地 址 , 那 
么 相应 的 命令 将 被 应 用 于 和 这 个 地 址 匹配 的 行 。 如 果 指 定 了 两 个 用 记号 分 郧 的 地 址 ， 
这 个 命令 将 被 应 用 于 位 于 第 “个 和 第 二 个 地 址 范围 之 间 的 所 有 行 。- 些 命令 只 接受 
一 个 地 址 ， 包括 a，i，r，q 和 =。 


在 地 址 后 面 的 ! 操 作 符 使 sed 将 相应 的 命令 作用 于 所 有 与 该 地 址 不 匹配 的 行 ， 
大 括号 《{) 被 sed 应 用 于 地 址 的 全 套 或 对 同一 个 地 址 应 用 多 个 命令 。 


[Patfterny [Jpattern 门 1{ 
尼 人 PPIERz 本 了 
夺 G 弄 如 


】} 


Sed 的 快速 参考 35%5 





正大 括号 必须 在 一 行 的 末尾 ,而 右 大 括号 必须 单独 在 一 行 。 确 保 大 括号 后 面 没 有 空 


格 ， 


sed 中 的 正则 表达 式 元 字符 
下 面 的 表 列 出 了 在 第 三 章 “ 了 解 正则 表达 式 语 车 ”中 介绍 的 模式 匹配 元 字符 。 


注意 ， 训 正 则 表达 式 “/A” 表 示 和 前 面 的 正则 表达 式 一 样 ， 


表 A-1; 模式 匹配 元 字符 


特殊 字符 


| 用 法 





AS] 


ML 全 


本 





1 匹配 除 换行 符 以 外 的 任意 单个 字符 
匹配 任意 个 (包括 0 个 } 在 它 前 面 的 字符 ! 包 括 由 正则 表达 式 指定 的 字符 ) 


1 亚 配 方 妖 世 中 的 字符 类 中 的 任意 个 富 符 . 其 他 所 有 的 元 字符 在 被 指定 为 
| 类 中 的 成 员 时 都 会 失去 它们 原来 的 售 久 .如果 方 揪 导 中 第 一 个 字符 为 脱 字 
符 〈“*) 则 匹配 除了 换行 符 和 类 中 列 出 的 那些 字符 以 外 的 所 有 字符 。 连 字 
符 (-) 用 于 表示 字符 的 范围 。 如 果 业 中 的 第 一 个 字 竺 为 右 方 揪 号 (1) 则 
表示 它 是 这 个 类 的 成 员 


它 前 面 的 某 个 范围 内 单个 字符 出 现 的 次 数 (包括 正则 表 近 式 指定 的 字符 }。 
AS 将 匹配 半 训 出现，WMaA 人 多少 匹配 半 次 出 现 ,fm} 开 配 关 和 严 之 
间 的 任意 次 出 璃 。( 仅 限 于 sedu 和 grep) 

定位 位 于 行 起 始 位 置 后 面 的 正则 表达 式 . 只 有 当 * 符 号 出 现在 正则 表 近 式 
的 起 始 位 置 时 是 特殊 的 

定位 位 于 行 术 尾 的 正则 表达 式 . 只 有 当 $ 特 号 出 现在 正则 表 运 式 的 末 昆 时 
是 特殊 的 

转 浆 随后 的 特殊 字符 

将 包含 在 “\ ”和 “人 ”之 间 的 模式 保存 到 一 个 特殊 的 保持 空间 。 用 这 种 
方法 在 - - 行 中 可 以 最 多 保存 9 小 模式 。 用 转 闵 序列 1” 到 “ 虽 ” 可 以 “ 重 
新 使 用 它们 ” 

匹配 用 前 面 “\(” 和 “V” 保 存 的 第 个 模式 ， 这 里 # 是 一 个 从 上 到 9 的 数 
字 ， 前 面 保存 的 模式 从 行 的 左边 开始 编导 

当 在 炉 换 字符 让 中 使 用 时 打印 整个 被 匹配 的 文本 








396 附录 一 


sed 的 命令 汇总 

:ebpel 
在 脚本 中 标记 一 行 ， 用 于 实现 由 加 或 4 的 摔 制 转移 iabe! 最 多 可 以 包含 ?个 字 
符 。(POSIX 标 准 允 许 实现 工具 在 需要 中 定妆 生长 的 标签 。GUN sed 匈 许 标签 
的 长 产 什 意 。) 

= acidres7j 
将 所 寻 乍 的 行 编 写 到 标准 输出 。 


和 [aqdre5sjany 





站 
在 与 adaress 匹配 的 每 行 后 面 追加 texr。 如 果 引 f 多 于 一 行 ， 必 须 用 反 竺 杠 将 
这 些 行 前 面 的 换行 符 “ 隐 蕊 ”起 来 。fex 好 将 被 没有 用 这 种 方法 陷 意 的 第 一 个 换 
行 符 结束 。text 在 模式 空间 中 巧 不 咱 用 的 并 卫 后 续 命 令 不 能 应 用 于 它 。 当 编辑 
命令 的 列表 用 完 时 这 个 命令 的 结果 将 被 输送 到 标准 输出 ,而 不 管 在 模式 空间 中 
的 当前 行 发 生 了 什么 。 

b [edaress 了 [ccdress2]]hTiabheD] 
无 条 件 地 将 控制 转移 到 靶 本 其 他 位 置 的 : fgef 处。 也 就 是 说 ，ie5ef 后 面 的 命 
令 是 应 用 于 当前 行 的 下 一 个 命令 。 如 果 没 有 指定 jazef, 控制 将 一 直到 达 脚 本 的 
末端 ， 因 此 不 再 有 命令 作用 于 当前 行 。 

ff Teadares7 [address2]iecy 
Eee 
用 ext 替代 (改变 ) 由 地 址 选 定 的 行 。 当 指定 的 是 -- 个 行 范围 时 ， 将 所 有 的 这 
些 行 作为 一 个 组 由 各 妇 的 一 个 副本 来 替代 。 每 个 te 好 行 后 面 的 换行 符 必 须 用 反 
疼 杠 将 其 转 叉 ,但 最 后 -行内 外 。 突 际 上 , 模式 空间 的 内 容 被 删除 ,因此 后 续 
的 命令 不 能 应 用 十 它 《〈 或 应 用 于 em)。 

遇 [address7 [address2]]ad 
从 模式 空间 中 删除 行 。 因 此 行 疫 有 被 传递 到 标准 输出 。 一 个 新 的 输 和 人行 被 读 
蔓 ， 并 用 脚本 的 第 - -个 命令 来 编辑 。 

卫 [adcaresy7[,adaress2]]D 
旺 除 由 命令 8 创建 的 多 行 神 式 空间 中 的 第 一 部 分 〈 直 到 由 人 的 换行 符 ) .并 且 
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用 脚本 的 第 一 -条 命令 恢复 编辑 。 如 果 这 个 命令 使 模式 空间 为 空 , 那么 将 读 肥 一 
个 新 的 输入 行 ， 和 执行 了 d 命令 一 样 。 
号 [Gadres3[,adaresr2]g 
将 保持 空间 【和 参见 h 或 再 命令 ) 中 的 内 容 复制 到 模式 空间 中 ,并 将 当前 的 肉 容 
清除 。 
全 [address[,adaress2]]G 
将 换行 符 乒 的 保持 空间 (参见 或 于 命 令 ) 内 容 扎 加 到 模式 空间 。 记 果 保 持 空 
闻 为 室 ， 则 将 换行 符 汪 、 加 到 模式 空间 ， 
ph [addrers7[aderreyr2]]h 
将 模式 空间 的 内 容 复制 到 保存 空间 , 即 一 个 特殊 的 临时 缓冲 区 。 保存 空间 的 当 
前 内 容 被 请 除 。 
HH [adadress7fadaress2j]H 
将 换行 符 和 模式 空间 的 内 容 追 加 到 保持 空间 中 , 即使 保存 空间 为 空 , 这 个 命令 
也 追加 换行 符 。 
i [aaagress 了 让 
Te 
将 tet 揪 入 到 每 个 和 aaearess 匹配 的 行 的 前 面 (参见 详细 了 解 ir 的 细节 )。 
1 [adearess 了 [earers2 让 1 
列 出 模式 空间 的 内 容 ， 将 不 可 打印 的 字符 表示 为 ASCII 码 。 长 的 行 让 折 行 。 
于 [gezresslliadarese2]in 
读 上 下 一 个 输入 行 到 模式 空间 . 当前 行 被 送 到 标准 输出 。 新 行 成 为 当前 行 并 递 
增 行 计数 器 。 将 控制 转 到 mn 后 面 的 命令 ， 而 不 是 恢复 到 脚本 的 顶部 。 
N [addressd[aadrers2]N 
将 下 一 个 输入 行人 妃 加 到 模式 空间 的 内 容 之 后 ; 新 汪 ′ 加 的 行 与 模式 空间 的 当前 内 
容 用 换行 符 分 隔 ( 这 个 命令 用 于 实现 蜂 两 行 的 模式 匹配 。 利 用 来 匹配 个 人 的 
换行 符 ， 则 可 以 实现 多 行 模式 匹配 ) 
P [eadresgifaddreys2]]P 
打印 所 寻 址 的 行 。 注 意 这 将 导致 输出 的 重复 ， 除 非 默认 的 输出 用 “#n” 或 
“- ”命令 行 选项 限制 .常用 于 改变 访 控 制 (da， nm、b) 的 命令 之 前 并 可 能 阻止 
当前 行 被 输出 。 
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卫 [aazqressjTeaagdrey932|] 它 
打印 由 命令 创建 的 多 行 模 蕊 空间 的 第 一 部 分 【和 直到 做 人 的 搞 行 符 )。 如 果 没 
有 将 N 应 用 于 某 -- 行 则 和 PP 相同。 
本 adare 弛 ] 坦 
当 遇 到 sdgarevs 时 垦 册 。 寻 址 的 行 首 先 被 气 到 输出 【如果 疫 有 限制 默认 输出 )， 
包括 用 前 面 的 a 或 r 命 令 为 它 追 加 的 文本 。 
ET [ezdresslr 六 Fe 
污 取 启 fe 的 内 容 并 追加 到 模式 空间 内 黎 的 后 面 。 必 须 在 了 和 文件 名 疡 le 之 间 保 
留 -个 空格 ， 
8 [cdressy[address2]]s1PperternarepiacermentfPFags] 
用 replacemem 和 代替 每 个 寻 址 行 的 patterm。 如 时 熏 用 了 模式 地 址 ， 那 么 模式 六 
袁 示 最 后 指定 的 模式 地 址 。 可 以 指定 下 面 的 标志 : 
和 替代 短 个 寻 址 的 行 的 第 于 个 Petermy。 na 是 1 到 512 之 间 的 任意 数字 ， 
并 且 软 认 值 为 1。 
名 夫 代 每 个 好 址 的 行 的 所 有 jatrerny， 而 不 只 是 第 一 个 。 
了 如 果 替 换 成 功 则 打印 这 一 行 。 如 果 成 功 进行 了 多 个 替换 ， 将 打印 这 个 
行 的 多 个 副本 。 
w Fie 如 果 发 生 -次 替换 则 将 这 行 号 人 .Pie。 最 多 可 以 打开 10 个 不 同 的 训 e。 
t [addresslifiadadres32]]t[iatpe 门 
测试 在 寻 址 的 行 和 围 内 是 否 成 功 执行 了 替换 ， 如 果 是 ， 则 转移 到 有 iatez 标志 
的 行 【参见 bB 和 ;:)。 如 果 没 有 给 出 epef， 控 制 将 转移 到 脚本 的 底部 。 
下 feddress7[aadress23]]m 万 E 
将 模式 空间 的 内 容 追 加 到 启 ie。 这 个 动作 是 在 遇 到 命令 时 发 生 和 而 不 是 在 输出 模 
式 空间 内 容 时 发 生 . 必须 在 w 和 这 个 文件 名 之 间 保 留 一 个 空格 。 在 脚本 中 可 以 
打开 的 最 天 文件 数 是 10。 如 果 文 件 不 存在 , 这 个 偷 令 将 创建 一 个 文件。 如 果 文 
件 存在 , 则 每 次 扫 行 脚本 时 将 改写 其 内 容 , 多 重 守 人 命令 直接 将 输出 写 大 到 同 
-个 文件 并 追加 到 这 个 文件 的 末 并 。 
[earess[aedres52]1x 
交换 模式 空间 和 保持 空间 的 内 容 。 
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多 addressi[agdres52]]yAepcAryzA 
按 佑 团 将 字符 串 ebpe 中 的 字符 转换 成 字符 串 xyz 中 的 肯 应 字符 。 


一 








附录 二 
awk 的 快速 参考 


这 个 附录 介绍 关于 awk 脚本 请 言 的 特点 。 


一 > 
命令 行 语 法 
亩 用 awk 的 语法 有 了 丙种 基本 形式 : 


8WK[-P Per=payef-FEre][--] Paternr fctonl yer=pele getaFiefesj 


县 铬 下 [ -VPCEF=YGEHe[-Ere] -Serip 扩 中 [--] er=Vagae ee 直译 失 人) 


一 个 awk 命令 行星 由 命令 、 脚 本 和 输入 文件 名 组 成 的 , 输入 是 共 命 令 中 指定 的 文件 
中 读 四 的。 如果 没有 指定 文件 名 或 指定 为 “-”, 那么 将 从 标准 输入 中 读 到 。 选 项 - 开 
将 字段 分 隔 符 【ES) 设置 为 re。 


-选项 在 脚本 执行 前 将 变 晶 war 的 值 设置 为 wafwe。 这 在 了 BEGIN 过 程 运 行 前 执行 ， 
【参见 下 面 有 关 命 令 行 参 数 的 讨论 )， 


根据 POSTX 参数 分 析 约 定 ， 选 项 “--” 标 记 命 令 行 选 项 的 结束 。 例如， 利用 这 个 选 
项 你 可 以 指定 以 “-” 开 头 的 datefie， 则 这 和 将 和 命令 行 选项 混淆 


你 可 以 在 命令 行 指定 - -个 由 用 单 引 号 包围 的 由 petemm 和 ecrion 组 成 的 脚本 。 换 铝 话 
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说 ， 你 也 是 以 将 脚本 和 写 入 一 个 单独 的 文件 并 在 命令 行 中 用 -了 选项 指定 文件 名 


SCPriDiFIe 。 


通过 在 脚本 后 命令 行 上 指定 参数 , 可 以 将 它们 传递 到 awk 中 。 这 包括 设置 系统 变 晶 ， 
例如 ES、OFS 和 RS。refe 可 以 是 :个 文字 . 一 个 shell 变量 {$var) 或 一 个 命令 
的 结果 (cmd ) 如 果 其 中 包含 空格 或 制 表 符 则 必须 用 引号 包围 起 来 。 可 以 指定 任 
意 多 个 变量 。 


直到 读 取 第 一 个 输入 行 ， 命 令 行 参数 才能 使 用 ， 因 此 在 BEGIN 过 程 中 不 能 访问 。 
{awk 和 nawk 中 的 较 老 的 实现 可 以 在 运行 BEGIN 过 程 之 前 处 理 前 导 的 命令 行 赋值 ， 
这 和 《The 点 WK Programming Language》y 中 所 措 述 的 是 相反 的 ,也 就 是 ,在 REGIN 
过 程 之 后 ，awk 将 它们 作为 文件 名 来 处 理 。 在 1989 年初，Bell Labs awk 修正 了 它 
们 ， 并 语 加 了 -* 选 项 。 现 在 它 是 POSIX awk 的 一 部 分 。) 参数 按照 它们 出 现在 命令 
行 中 的 顺序 来 求 值 , 直到 遇 到 :个 文件 名 。 川 现 在 这 个 文件 名 之 后 的 参数 在 下 -个 
文件 名 被 识别 时 变 为 王 用 。 


用 shell 实现 调用 awk 


在 系统 提示 符 下 输入 脚本 只 能 练习 简单 的 单行 脚本 .任何 可 以 作为 … 个 命令 来 调用 
并 重用 的 脚本 都 可 以 放 到 shell 脚本 中 。 利 用 sheli 程 序 来 调用 awk 可 以 使 别人 更 容 
易 使 用 这 些 脚 本 。 


可 以 将 调用 awk 的 命令 行 放 在 一 个 文件 中 , 给 它 - -个 名 字 以 说 明 脚 本 的 功能 .将 文 
件 做 成 可 执行 的 《利用 ehmod 命令 ) 并 将 它 放 入 到 个 目录 中 , 这 个 目录 中 包含 局 
部 命令 。 可 以 在 命令 行 输入 这 个 shell 脚本 的 名 宇 来 执行 awk 脚本 .这 是 为 了 更 易于 
使 用 和 重用 . 


在 现代 的 UNIX 系统 中 , 包括 Linux, 你 可 以 使 用 色 ! 语 熙 来 创建 自 包含 的 awk 脚本 : 


#1 YuUserrAbinAawxe -下 


SC 


awk 参数 和 答 入 文件 名 可 以 在 调用 shel 脚本 的 命令 行 上 指定 。 注意 , 使 用 的 路 径 名 
取决 于 系统 。 
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awk 语言 概要 


这 部 分 概括 了 awk 如 何 处 理 输入 记录 和 描述 组 成 awk 程序 的 各 种 语法 要 素 。 


记录 和 字段 


每 个 输入 行 都 被 分 割 为 字段 。 黑 认 情 况 下 ， 字 段 定 界 符 是 一 个 或 多 个 空格 和 /7 或 制 
表 符 ， 可 以 使 用 -大 命令 行 选 项 来 收 变 宇 段 分 阳 符 。 同 时 还 要 设置 FS 的 值 。 下 面 的 
命令 行将 字 自 分 隔 符 改 为 一 个 冒号 : “ 


ak -PP: -上 awkscr YetcrpasswQ 


也 可 以 将 定 界 符 贼 值 给 系统 变量 FS， 这 通常 在 BEGIN 过 程 中 完成 , 但 也 可 以 作为 
命令 行 的 参数 来 传递 。 


BwK - 夺 斌 wKSCT PS- : “7e7 羡 所 SwWG 


每 个 输入 行 都 是 由 几 个 字段 组 成 的 一 个 记录 , 每 个 字段 可 以 根据 它 在 这 个 记录 中 的 
位 置 来 引用 。 "$1 ”表示 第 - ' 个 字段 中 的 值 ,“$2” 表 未 第 二 个 字段 的 值 等 等 。"80” 
表示 整个 记录 。 下 面 的 操作 打印 每 个 输入 行 的 第 一 个 字段: 


f BFint 点 1 】 


软 认 的 记录 分 隔 符 是 一 个 换行 符 。 下 面 的 过 程 设 置 了 FS 和 灵 8S,， 使 得 awk 将 直到 遇 
到 空 行 前 的 任意 个 行 解释 为 -个 记录 ， 而 每 个 行 是 一 个 单独 的 字段 。 


BBSGIN { FS = "ni RS= "” 】} 


注意 , 当 及 S 被 设置 为 一 个 空 字符 串 蛙 ,不管 FS 的 慎 是 什么 , 换行 符 总 是 用 来 分 隔 
字段 。 这 些 在 《The 各 WProgramining Languagebp 和 《Effective 太岁 开 
Programmingy 中 讨论 了 更 多 在 细节。 


脚本 的 格式 
awk 脚本 包含 一 系列 的 模式 匹配 规则 和 操作 


PatternT actop 
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action 操作 由 “个 或 多 个 语句 组 成 ， 用 于 对 孝 些 与 模式 正 配 的 输入 行 执行 操作 。 如 
果 没 有 指定 模式 ， 这 个 操作 对 每 个 行 都 执行 .下面 的 例子 用 print 语 名 打印 输入 文 
件 的 每 个 行 : 

{ PEInE 
如 果 只 指定 一 个 模 上 茅 ， 下 么 黑 认 的 操作 由 print 语 多 构成 ， 如 上 所 示 。 
也 可 以 出 现 国 数 的 定 立 : 

function marmefPper&rnerer 15 站 【Statemerry ) 
这 个 语法 定 史 了 曙 数 name, 给 出 了 在 国 数 体 中 可 以 访问 的 参数 列表 。 在 参数 列表 中 
指定 的 变量 被 看 做 是 函数 内 部 的 局 部 变量 。 其 他 所 有 的 变量 是 全 局 的 并 可 以 在 团 数 


外 部 对 和 们 进行 访问 。 当 调 雨 自 定 义 国 数 时 , 不 允许 在 国 数 名 和 左 圆 揪 号 之 间 有 空 
格 存 在 . 在 葬 数 的 定 浆 中 充 许 有 空格 。 自 定义 国 数 在 第 九 章 “ 国 数 ” 中 进行 了 介绍 。 





行 的 终止 
awk 脚本 中 的 行 以 -个 换行 符 或 一 个 分 号 终止 。 如果 允许 ， 可 利用 分 导 将 多 个 行 让 
在 同一 行 ， 了 但 这 将 降低 程序 的 可 读 性 ， 在 语句 之 间 允 许 存在 空 行 。 
程序 控制 语句 《dao,， 证 ,for 或 while) 的 范围 包括 下 - 行 , 在 那 一 行列 出 了 相关 语 
名 。 如 果 给 出 了 允 个 与 控制 语句 相关 的 语句 ， 那 么 必须 用 大 括号 揪 起 来 。 
If INWF>1) 1 
Dame = 占 1 


七 已 女 忆 1] + = 筷 立 


对 于 多 行 诸 名 不 可 以 使 用 分 号 来 避免 使 用 大 括号 。 


可 以 使 用 反 斜 杠 () 转 义 换行 符 实现 将 一 行 代码 写 在 多 行 上 。 也 可 以 用 下 列 字 符 中 
的 任何 一 个 来 中 断 行 。 


，1T 才 | 


在 gawk 中 还 可 以 用 “? ”或 “:” 来 延续 :个 行 。 字符 串 不 能 跨行 【在 gawk 中 除外 ， 
在 gawk 中 可 以 在 换行 符 的 前 面 请 加 “\” 来 实现 字符 串 换行 )。 


rraererinri4rrr -一 
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注释 
流 以 “"##” 片 始 并 以 换行 符 结束 。 亡 可 以 单独 出 现在 一 行 上 或 出 现在 一 行 的 最 后 ， 
往 释 是 横 述 性 的 说 明 ， 用 二 解 释 脚 本 的 操作 。 注 释 不 能 用 反 斜 杠 来 延伸 到 下 一 行 。 


模式 
一 个 模式 可 以 是 下 面 所 列 的 任何 一 个 : 
j7eBHIGr erDresysiomr 
eg 有 DGE EAXDPeS8E 下 
了 BECIN 
END 


站 加 站 好 丰 天 

1. 于 则 表 寺 式 使 用 元 字符 的 扩 虹 集 并 且 必 须 用 午 杠 包围 .对 于 正则 表达 式 的 详细 
讨论 ， 请 参阅 第 二 章 “ 了 解 正 财 表 达 式 语 东 ”， 

2 ， 区 系 表达 趟 使 用 关系 操作 符 ， 列 在 本 章 “ 表 达 式 ”的 后 面 。 


3 BEGIN 模式 在 第 “个 输入 行 被 读 取 之 前 应 用 , END 模 式 在 最 后 一 个 输入 行 被 
读 取 之 后 应 用 。 


4 使 用 ! 可 以 否定 苞 配 ， 也 就 是 处 理 与 模式 不 匹配 的 行 。 
5 可 以 访问 车 干 行 ， 和 在 sed 中 一 样 : 
Paterhpatern 
史上 了 BEGIN 和 END 外 ， 其 他 模式 都 可 以 使 用 下 面 的 操作 符 来 进行 组 合 : 
此 人 逐 辑 与 
(上 有 表 辑 或 


Hawk 的 Sa 版 本 (SunDS 4.1.x) 不 支持 将 正则 表达 式 赴 散 是 一 个 大 的 布尔 表 
达 式 的 “ 郎 分 。 例 如 "eute/ 攻 长 fsweet ”或 “7ftast | 17guicky” 是 不 起 作用 的 。 


另外 ,CC 的 条 件 可 作 符 ?:(partera? patrerm : pafrera) 可 以 用 在 模式 中 。 
6， 可 以 将 横 式 放 在 略 括 号 中 确保 正确 的 求 值 。 
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7， BEGIN 和 END 神 式 必须 和 操作 相 联 系 。 如 果 编 写 了 多 个 BEGIN 和 END 规 
则 ， 它 们 在 被 应 出前 被 合并 成 :个 规则 。 


正则 表达 式 


表 B-1 总 结 了 在 第 = 章 中 措 述 的 止 则 表达 式 、 


抱 宇 符 按照 优先 级 到 出 。 


甫 B-1: 正则 并 达 式 元 字符 











和 用 方 括号 包围 起 来 的 字符 业 中 的 任何 一 个 字符 匹配 。 脱 字符 (* ) 性 为 
方 括号 中 的 第 一 个 字符 表示 将 折 配 所 有 列 在 类 中 的 字符 以 外 的 字符 。 爱 字 
符 人) 用 于 袁 示 一 个 字符 范 肝 。 广 方 括号 {1) 在 作为 类 中 第 -个 字符 表 
示 是 这 个 类 的 成 员 . 当 其 他 的 元 学 符 作 为 类 的 成 员 时 将 失去 它们 原来 的 含 
义 。 但 \ 除 外 ， 它 可 以 用 来 转 多 ]， 即 使 没有 用 在 第 一 位 


特殊 字符 用 法 加 

5 和 不 是 元 学 符 的 任何 字面 字符 ec 此 配 

、\ 转交 它 后 面 的 任意 元 字符 ,所 括 它 自己 

^ 将 后 面 的 正则 表达 式 定 位 在 字符 串 的 开始 处 

$ 将 前 而 的 正则 表达 式 定位 在 宁 符 中 的 末 庙 
和 任 章 单 个 字符 匹配 ， 包 括 换行 符 

人 

rJlr2 允许 与 正则 表达 式 呈 或 世 中 的 任何 一 个 匹配 

17 用 上 连接 正则 表达 式 

7 与 前 面 的 任意 个 【包括 0 个 ) 正则 表达 式 匹配 

生 与 前 面 焉 则 表 过 式 的 一 个 或 多 个 出 现 匹 配 

7 ] 


(m 





| 与 前 而 正则 表达 式 的 0 个 或 1 个 出 现 匹配 





正则 表达 式 也 可 以 使 用 转 义 序列 来 访 癌 等 侏 的 字符 , 和 在 本 附录 后 面 的 “转交 序列 " 
一 节 定 义 的 一 样 。 


注意 ，*“ 和 串 对 trings 操作 ， 它 们 不 和 嵌入 到 记录 或 字符 串 中 的 换行 符 匹 配 。 
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在 POSIX 电 ,允许 在 一 对 方 括 叶 中 出 特 珠 符号 匹配 非 英 语 字 符 。 在 表 B-z 中 对 它们 
进行 了 摘 述 。 

表 B-2，POSIX 字符 列表 工具 

符号 功能 四 
Lsymbpol] | 比较 符号 ， 比 较 符 号 是 一 个 多 字符 序列 ， 应 将 它 看 作为 一 个 单元 来 处 理 
[=eqitaiv=] 等 价 类 。 一 个 等 价 类 列 出 了 “组 字符 . 这 组 字符 应 该 算 看 做 是 相等 的 , 例 








如 “e” 和 “人 
[:class:] ; 字符 类 .。 字符 闫 闫 键 间 才 未 不 同 的 汪 符 类 ,例如 字母 字符 , 控制 字符 等 等 
[atnum:】 | 字母 数字 字符 
[:alpha:] | 字 脉 字符 
[biank:] | 空格 和 制 表 管 
[ientel'] 拧 制 字符 
digit] 数字 字符 
[:grapl:] F 可 打印 的 和 河 见 的 【 非 空 格 ) 字符 
Elowec] 十 小 写字 符 
[Print'] 可 打印 的 字符 
[pumect] 标点 符 呈 字符 
[spacer] 窗 扫 宁 特 
[:upper:] 大 写字 符 
Cxdigit] | 十 六 进 制 数字 











注意 ， 这 些 1. 其 《上 面 所 乞 的 ) 一 直 宙 有 被 广泛 地 应 用 。 


表达 式 

一 个 表达 式 可 以 由 常量 、 变 量 、 损 作 符 稍 数组 成 。 常 最 要 么 是 字符 串 【字符 序列 ) 
要 么 是 数值 变量 是 一 个 符号 ， 它 引用 -个 值 。 可 以 将 它 看 做 是 一 条 信息 ,返回 一 
个 特定 数值 或 字符 串 的 值 。 


awk 的 快速 参考 本 人 





常量 
有 陋 种 类 型 的 常 基 . 即 字 符 串 当量 或 数值 常量 。 宁 特 叫 常量 必须 用 引号 括 赵 来 ， 而 
数值 常量 不 需 昌 。 





转 兴 序列 

表 B-3 摘 述 了 可 以 用 在 字符 串 和 正则 表达 式 中 的 转 闵 序列 。 
表 B-3; 转 党 序列 

序列 描述 网 

人 | 报警 字 符 ， 通 常 是 ASCH BEL 字符 

让 :过 格 符 

让 走 纸 符 

An 换行 符 

守 回 车 符 

导 本 平 制 才 符 

Aw 二 直 制 表 符 

ddd 将 字符 表示 为 1 到 3 位 八进制 慎 

Ag 下 ex 将 宇 符 表示 为 于 六 进 制 值 * 

Ac 任何 需要 字面 表示 的 字符 c《 例 如 : Vvfor")。 








a，、 POSIX 不 甘 殿 “\x " ， 但 它 通 需 奸 可 用 的 。 


b， 和 ANSIC 一 样 ， 当 体 在 没有 列 在 这 个 表 中 的 性 港 学 竺 前 让 旺 一 个 反对 杠 时 ，POSIX 保 纵 
这 些 字 生 为 未 定义 。 在 大 多 数 版 二 的 awk 中， 你 就 会 直 捷 得 到 那个 字 御 。 


变量 
有 3 种 类 型 的 变量 : 自 定 又 变 量 .内置 变量 和 字段 。 按 照 惯例 ， 内 性 或 系统 变量 的 
名 字 金 部 由 大写 的 字母 组 成 。 


变量 的 名 字 不 能 以 数字 开头 ,而 是 由 字母 ， 数 字 和 下 划 线 组 成 。 在 变量 名 中 字母 的 
火 小 写 是 很 重要 的 ， 


一 
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变 最 不 需要 声明 或 初始 化 。 :个 变量 可 以 包 售 -个 字符 串 或 数值 ,对 于 未 被 初始 化 
的 变量 将 空 晶 《””) 作为 它 的 字符 串 值 ， 将 0 作为 它 的 数值 。awk 会 根据 操作 来 决 
定 - ' 个 值 是 作为 字符 串 还 是 数值 来 处 理 . 





变 芝 的 赋值 形 蕊 为 : 
YEF = expr 

它 将 表达 式 的 值 贼 给 rer。 下 面 的 表达 式 将 值 ! 赋 给 变量 x。 
x -= 1 

使 用 变 基 的 名 字 可 以 访问 它 的 信 : 
(print x 

以 上 语句 打印 变 鳃 工 的 值 。 本 例 可 以 得 到 1。 


参见 后 面 的 “系统 变量 " 一 节 了 解 内 置 变量 的 信息 。 利 用 $r 可 以 访问 字段 变量 ,这 
电 的 "是 0 到 NEF 之 间 的 任意 一 个 数 ， 用 下 按 位 置 衣 问 字段 。 也 可 以 表示 为 … 个 变 
量 ， 例 如 $NEF 表示 最 后 一 个 宇 段 ， 或 表示 为 一 个 常量 ， 例 如 $1 表示 第 一 个 字段 。 


数组 
数组 是 一 个 可 以 用 来 存储 “组 值 的 变量 。 下 面 的 语句 为 数组 的 元 素 贡 一 个 慎 : 


人 FrGY[iRaex] = vaFRe 


在 awk 中 , 所 有 的 数组 都 是 关联 数组 。 使 得 关联 数组 独特 的 是 它 的 下 标 可 以 是 一 个 
字符 圳 也 可 以 是 一 个 数字 。 


关联 数组 在 数组 的 下 标 和 元 素 之 间 建 立 了 -种 “联系 "。 对 于 数组 中 的 每 个 元 素 包含 
一 对 值 : 元 素 的 下 标 和 元 素 的 值 。 关联 数组 的 元 素 不 像 传统 数组 的 元 素 那样 按 特 定 
的 顺序 存储 。 


可 以 使 用 far 循环 来 读 取 关 联 数组 中 的 所 有 元 素 。 


tiorfirermi in array1 
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这 里 数组 的 下 标 由 变量 ie 严 来 指定 ， 数 组 元 蕴 的 值 可 以 利用 erray[item 米 访问 。 


可 以 利用 操作 符 闻 通过 测试 :个 元 素 的 下 标 是 台 存 在 以 确定 这 个 元 素 是 否 存在 ， 


证 (indesrin arrayy) 


用 于 测试 array[imdex] 是 否 在 在 。 但 不 能 使 用 erray[indezo 来 测试 这 个 元 素 的 值 。 


也 可 以 使 用 delete 语句 从 数组 中 删除 - :个 苑 素 。 


系统 变量 


ak 定义 了 许多 特殊 的 变量 ， 它 们 可 以 在 程序 中 被 访问 或 重新 设置 ， 如 表 3-4 所 示 
《 软 认 值 列 在 括号 中 ) 。 


囊 B-4: awk 的 系统 变量 





变量 _ | 描述 _ 

各 及 GC 命令 行 中 的 参数 个 数 

各 及 GY 包含 命令 行 参数 的 数组 

CONYTFMT ”用 于 数字 的 字符 串 转 换 烙 式 【 锡 .6B) (POSIX) 
ENVIRON 环境 变量 的 甘 联 数组 

FILENAME | 当前 文件 名 

下 NR 和 NR 业 似 ,得 和 当前 文件 相关 

FS 字段 分 隔 符 【 :个 空 行 ) 

NE 当前 记录 中 的 字 揣 个 数 

NR | 当前 记录 的 个 数 

OFMT 数字 的 输出 格式 【 负 .68) 

DOFS 输出 字段 分 隔 符 【一 个 空 行 } 

人 RS 输出 记录 分 隔 符 【一 个 换行 符 ) 
RLENGTH | 和 靖 数 matchO 匹 配 的 字符 串 的 长 底 

RS 记录 分 隔 符 【一 个 换行 符 ) 

RSTA 有 和 国 数 mateht) 匹 配 的 字符 串 的 第 -个 位 置 
SUBSEP 数组 下 慰 的 分 哺 字 符 《034】 
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操作 符 

在 表 B-5 中 按 优 先 顺 译 别 出 了 可 在 awk 中 应 用 的 操作 符 。 
表 B-5: 操作 符 

操作 符 | 描述 _ 

= += -= x= /= ^=*+= | 赋值 操作 符 

9 尼 语 言 的 条 件 表 寺 式 

中 | 逻辑 或 

太 妈 还 辑 与 

Tv 匹配 正则 表达 式 与 不 匹配 

< < > >= 1- == 关系 操作 符 

(btank 连接 符 

+ - 加 半 ， 碱 站 

*# 了 本 习 法 ， 除 益 ， 取 模 

+ -1 焉 ， 负 ,逻辑 非 

站 虽 业 了 求 短 

4 递增 和 冰 减 ， 作 为 前 缀 或 后 刍 
_ 字段 引 用 











注意 : 这 里 的 “**” 和 “**=” 基 共同 的 扩展 ， 它 们 不 是 POSIX awk 的 组 成 部 分 





语句 和 函数 


包含 在 大 括号 中 的 动作 ， 由 一 个 或 多 个 语句 和 /或 表达 式 组 成 。 语 句 和 国 数 之 冰 的 
区 别 是 函数 将 返回 .一 个 导 ， 并 且 它 的 参数 列表 在 圆 括 号 中 给 出 【在 形式 上 不 一 定 严 
格 按照 语法 规定 ; Printf 被 看 做 是 一 个 语句 , 面 它 的 参数 列表 可 以 包含 在 圆 括号 中 ; 
getline 是 一 个 还 数 ， 但 它 役 有 使 用 括号 )。 


awk 有 许多 预定 尺 的 算术 函 数 和 牢 符 串 国 数 。 函数 经 常 按 下 面 的 方式 调用 : 


relerm = FnrtEOPIGerg 了 .ar2) 
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这 里 的 zefar 是 :个 变量 ， 用 十 保存 国 数 的 返回 值 《 实 际 上， 一 个 国 数 的 返回 值 可 
以 用 在 表达 式 的 作 何 位 置 , 而 不 仅仅 只 出 现在 赋值 语句 的 右边)。 图 数 的 自 变 量 是 用 
逗号 分 隔 的 “全 列表 。 左 贺 括 所 上 距 在 力 数 名 后 面 (对 于 内 喧 冰 数 ,在 困 数 名 和 揪 号 
之 间 人 允许 有 一 个 空格 )。 





awk 的 命令 汇总 


下 面 基 依 字母 的 顺序 列 出 的 诺 句 和 国 数 ,其 中 包含 了 POSIX awk、gawk 或 aawk 中 
所 有 可 用 的 语句 和 参数 .参阅 第 十 一 蓝 “awk 的 系列 产品 *, 介绍 了 扩展 变量 的 不 同 


实现 。 


有 EN 


breakK 


Closer 1) 


CO 


engsf 


人 elete 


Go 


呈 和 和 可 羡 (7 区) 

有 返回 yx 的 反正 切 ， 单 位 是 弧度 。 

从 While， for 或 do 循环 中 退出 。 

tlOSer 六 TepGNie-exPpr) 

fosefeco 严 王 Gp 人 ex 站 

在 天 多 数 awk 的 实现 中 ， 你 只 能 同时 打开 ,定数 量 的 克 件 和 /或 管道 。 
因此 ，awk 提供 了 一 个 close0 困 数 ， 利 用 这 个 国 数 你 可 以 美 团 - :个 文 
件 或 个 管道 。 它 将 打开 文件 或 管道 的 间 一 表达 式 作为 参数 . 这 个 表达 
式 的 每 个 字符 必须 和 打开 文件 或 管道 所 用 的 表达 式 相同 即使 空格 
也 是 有 意义 的 。 

开始 while,for 或 do 循环 的 于 一 -个 选 代 。 





Cos(X) 
返 同 x 的 余弦 ，x 单位 为 孢 麻 ， 
delete 2rray[eiemera] 
删除 数组 的 元 素 
0 
body 


好 iiefezx 广 


472 


Xi 计 


exXP+t) 


for 


色 etiime 


Bubh 
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循环 语句 。 执 行 在 go 必 中 的 语句 并 计算 expr 的 值 , 当 erpr 的 值 为 真 时 ， 

重复 执行 poay。 

人 Xit[exP 门 

从 脚本 中 退出 ,不 再 读 取 新 行 。 如 果 有 END 规 则 ,， 则 执行 .选项 expr 

是 awk 的 返回 值 。 

eXP(S) 

返回 e 的 zx 次 宕 4e ”2 

OCR eNPF fte3f-exPpF ECTr-eYPF] SIEIREHE 

C 诸 言 风 榜 的 循 坏 结构 。iai-expr 是 计数 器 变量 的 初 冶 值 。resterpr 是 
:个 关系 表达 式 并 在 每 次 执行 stafement 之 前 计算 它 的 翁 ， 当 resfexpr 

为 假 时 ， 退 出 循环 。Pcr-expr 用 来 在 每 葡 循环 中 递增 计数 器 变量 。 


forrem GPayy SHIGTe 玖 et 


用 于 读 取 关 联 数 组 的 特殊 循 坏 。 对 于 数组 中 的 每 个 元 楷 ，sratememtr 部 
被 执行 ; 可 以 利用 arreyfire 站 ] 的 形式 来 访问 元 素 。 

读 取 下 :个 输入 行 

Eetlimne[var][< 扬 吧 ] 

commiaGnd | Setline[yer] 

第 - -种 形式 从 户 吧 由 读 取 输入 ,第 二 种 形式 读 取 commanzd 的 输出 结果 。 
商 种 形式 每 次 都 只 读 取 一 行 , 并 且 每 次 执行 读 语 名 得 到 下 一 个 输 和 行 。 
输入 行 被 赋 给 4 并 分 解 为 字段 ,上 是 设置 NE、NR 和 FNR。 如 果 指 定 了 
ear， 那么 结果 将 赋 给 ver 而 $0 不 变 。 因 此 当 结 果 被 轧 给 一 个 变量 时 ， 
当前 行 没有 变化 。 实 际 上 getline 是 一 个 函数 ， 当 它 成 功 读 取 一 个 记录 
时 返回 慎 为 1、 当 遇 到 最 后 … 行 时 返回 D， 当 由 于 某 些 原因 读 取 失败 时 
返回 -上 0 

8Suhbfr,?, 攻 


全 局 替换 字符 趾 ? 中 与 字符 串 ! 中 的 正则 表达 式 r 匹 配 的 所 有 字 特 趾 . 返 
回 替 摘 的 次 数 ， 如果: 上 + 设 有 给 出 ， 黑 认 值 为 加。 
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下 


index 


it 


1e 芒 炸 中 用 人 


1o8gO 


ET 


TeXt 


Print 


了 ein 手 


这 [ex 天 让 31GtB 玉 如 玫 

|else faterment2] 

条 件 诸 句 。 计 算 expr 的 值 ， 如 果 为 兵 ， 兵 行 saxementIi 如 果 给 出 了 
else 字句 ， 当 expr 为 假 时 执行 staferzent2。 

让》 

返回 在 字符 串 中 的 子 串 的 位 置 【《 起 始 位 置 为 1)。 

intfxy 

遂 过 将 x 中 小 数 点 后 面 的 数字 截断 来 得 到 * 的 整 教 值 。 

了 下 富 th (3 

返回 字符 串 的 长 度 ， 如 果 没 有 参数 财 返回 和 的 长 度 。 

]og(zx) 

返回 x 的 自然 对 数 【 以 e 为 底 )。 

In08tehts,r 

模式 匹 肥 冰 数 ， 由 正 别 表达 式 上 给 出 模式 ， 返 回 在 字符 串 = 中 与 上 匹 电 
的 开始 位 置 , 如 宙 有 发 现 瑟 配 则 返回 0。 将 RSTART 和 ELENGTH 的 
值 分 别 设置 为 瑟 配 的 开始 位 置 和 匹配 的 长 庆 。 

读 取 下 一 个 输入 行 并 从 第 一 个 规则 开始 执行 脚本 。 
Tint[epgppPerf-exPriaest-expr] 

求 cutput-expr 的 值 并 将 它 直接 输出 到 标准 输出 ,后面 跟着 DRS 的 值 ， 
每 个 cottpzt-expr 都 被 DRS 的 值 分 辣 开 。destexpr 是 一 个 可 选 表达 式 ， 
直接 将 输出 送 到 一 个 文件 或 管道 。 "> 记 iie” 直 接 和 将 输出 送 到 一 个 冯 件 ， 
并 材 盖 它 的 以 前 内 容 。 ">> 请 ie” 将 输出 追加 到 一 售 文 件 申 ， 保 留 它 以 
前 的 内 容 。 在 这 两 种 情况 下 ， 如 果 文 件 不 存在 都 将 创建 这 个 文件 。 ”| 
comend ”直接 将 输出 作为 一 个 系统 命令 的 输入 。 
printffpormaatexPpr[，ezpr-ErET destexpr] 

具 避 语言 中 借用 的 :个 可 选 的 输出 语 句 。 它 可 以 产生 格式 化 输出 。 它 也 
可 以 用 于 输出 设 有 自动 换行 的 郝 据 , 色 rmsgt-expr 是 一 个 格式 说 明 字 符 
串 和 常量 字符 串 【 参 见 下 一 节 关 于 格 式 说 明 符 的 列表 )。expr-izt 是 - 
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La 于 如 () 


sinf) 


SDHitf) 


Sprint 


sqrt() 


3T 久 如 全 


Su 


S9jstrf) 


System 人) 
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个 和 格式 说 明 符 对 应 的 参数 列表 ， 人 参见 print 浅 句 关于 aesf-expr 的 描 
工 各 本 本 人) 


生成 0 到 1 之 间 的 一 个 随机 数 。 每 次 执行 脚本 时 这 个 国 数 返回 相同 的 一 
系列 数据 ， 除 非 使 用 srand0 困 数 生成 随机 数 发 生 器 的 种 子 数 。 


Sinmfzr) 

返回 * 的 正 嘴 ，* 单 位 为 听 度 。 

SPDJit(sfrsarrey:9e) 

这 个 函数 利用 字段 分 隔 符 将 字符 串 分 解 到 数组 元 素 中 。 如 果 设 有 指定 字 
段 分 陋 符 ， 则 使 用 FS 的 值 。 数 组 的 分 割 和 字段 的 分 割 是 相同 的 。 
SPEiRHECOROPGt-exPr[exprE5H) 

该 国 数 返回 根据 prin 寻 格式 说 明 指定 的 烙 式 化 的 字符 串 。 它 格式 化 数据 
但 不 输 册 数据 。 formaf-expr 是 :个 格式 说 明 字 符 串 和 常量 字符 串 。 
exprst 是 一 个 和 格式 说 明 符 对 应 的 参数 列表 。 

SETtICY)》 

返回 x 的 平方 根 。 

SF 熏 卫 全 (ETP 户 

使 用 expr 为 随机 数 发 生 器 设置 -个 种 子 数 。 默认 慎 为 当天 的 时 间 。 返 
回 值 为 旧 的 种 子 数 。 

SUh(r， ,人 

赫 换 字符 串 * 中 与 字符 串 上 中 的 止 财 表 达 式 上 号 配 的 所 有 字符 串 。 如 果 
成 功 则 返回 1， 否则 返回 0。 如 果 没 有 给 出 !， 菊 认 值 为 80。 
substr(str .5ecg em) 

返 问 字符 串 *tr 中 开始 位 置 为 Beg 的 子囊 ， 后 面 的 字符 串 的 最 大 长 序 为 
ien。 如 果 没 有 给 出 长 底 ， 将 得 到 剩余 的 字符 串 。 

全 玉生 丰 人 CO 放 让 寻 并 失 


该 函数 执行 给 出 的 comamrand 并 返回 它 的 状态 。 执 行 命令 的 状态 通常 表 
下 成 功 或 失败 。0 表 示 命 令 执 行 成 功 。 非 零 值 表示 某 些 类 型 的 错误 ,不 
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管 是 正 的 或 负 的 , 所 执行 的 命令 的 有 基文 档 将 提供 详细 的 介绍 . 在 awk 
胸 本 中 这 个 命令 的 输出 结果 是 币 可 用 的 。 使 用 ”commanad 1gettine” 可 
以 将 命令 的 输出 读 取 到 脚本 中 。 


tolowerf 和 10wWerfstr 

将 字符 串 str 中 所 有 大 每 宇 母 转换 为 小 写 牢 母 并 返回 新 的 字符 串 ( 注 1)。 
touppert) ”toupperfstr) 

将 字符 串 sr 中 所 有 小 写字 母 转换 为 大 写字 母 并 返回 新 的 字符 审 。 
罗 Dile While (exPry stetemerr 


循环 结构 。 当 expr 为 真 时 ， 执 行 ?ialement。 


应 用 在 printf 和 sprintf 中 的 格式 表达 式 
格式 表达 式 可 以 在 % 之 后 有 3 个 训 选 的 修饰 符 ， 在 多 前 面 为 格式 说 明 符 : 


入 -WiGRPFreciiom Prmaaf-specr 沪 er 


输出 字段 的 wid 呈 是 一 个 数值 下 的 值 。 当 你 指定 字段 的 宽度 时 ， 访 字段 的 内 容 默认 
为 右 对 齐 。 必 须 指 定 “-” 来 实现 左 对 齐 . 因此 ,“ 胞 -20” 输 出 的 是 一 个 字段 宽度 为 
20 个 字符 的 大 对 齐 的 字符 串 。 如 果 这 个 字符 串 不 是 20 个 字符 ， 则 用 空格 来 填 满 该 
字段 。 

precirion 修饰 符 用 于 调整 十 进 制 或 浮 点 型 的 值 ， 控 制 小 数 点 右边 出 现 的 数字 的 个 
数 。 对 十 字符 串 格 式 ， 它 控制 从 这 个 字符 串 中 打印 的 字符 的 个 数 。 


你 可 以 根据 Printf 或 sprintf 中 的 参数 列表 为 wjdt 和 precision 动 态 赋值 。 要 实现 这 
一 世 能 必须 注 上 星 号 ， 而 不 是 指定 字面 值 。 


BYTEET 各 ,> 人 ，5，3，myvarl 7 


主 1: 在 na 的 早期 版 本 中 ， 例 扣 用 于 SunOS 4.1 的 版 本 ,不 支 村 tolower0 和 toupper0， 
但 有 是， 现在 它们 己 经 作为 aq 的 POSIX 规范 的 组 成 部 分 。 
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附 邓 一 








在 这 个 例子 中 ,宽度 为 5， 精 度 为 3， 将 要 打印 的 值 来 自 于 台 yvar。nawkE 的 较 老 版 


本 不 支持 这 些 ， 


往 总 ， 数值 输出 的 默认 精度 是 “多 .68"。 这 个 默认 值 可 以 通过 设置 系统 变量 OFMT 


来 改变 。 这 将 影响 用 print 活 句 输出 数值 的 精度 。 例如, 如 
中 包含 美元 值 ， 则 可 将 OFMT 收 为 “名 .2f”。 


果 你 用 awt 编 写 报告 . 其 


在 表 B-6 中 列 出 了 应 用 于 printf 和 sprintf 语句 中 的 格式 说 明 符 。 


表 B-6: 在 printf 中 使 用 的 格式 说 明 符 








字符 描述 
e | AScIl 后 符 
| 十 进 制 整数 
i | 十进制 整 数 ， 已 捧 加 到 POSIX 中 
刀 浮 点 型 格式 【f-] 世 precisionef+-]dd) 
下 泽 点 型 格式 ({[-1d.precision 玉 [+-]dd) 
ff 浮 点 型 格式 (【[-jageprecaionj 
g |e 或 上 的 转换 ， 无 论 哪 一 个 最 短 ， 将 末尾 的 零 删 除 
G 下 或 了 的 转换 ， 无 论 哪 一 个 最 短 ， 将 未 尾 的 零 删除 
9 无 符号 的 具 进 制 值 
$ 字符 串 
无 符号 的 干 具 进 制 娄 ， 用 af 表示 10 到 15 
其 无 符 导 的 十 六 进 制 数 ， 用 二 -FE 表示 10 到 1 
多 .字面 % 





道 常 ， 凡是 在 系统 的 zjrinI3) 子 例 程 中 ， 可 用 的 格式 说 明 


符 在 awk 中 也 是 可 用 的 。 


Prin 红 和 sprinttO 的 售 人 方式 通常 取决 于 系统 的 C oprintX3) 子 例 程 。 在 许多 机 器 
上 ，sprimt 售 人 是 “无 偏 莽 的 ， 这 意味 着 它 不 总 是 对 “.5” 进 行进 位 ， 和 通常 期 刻 
的 相反 。 在 无 偏差 的 舍 人 中 ,“.5” 以 “由 偶 ”的 形式 进行 进位 ， 而 不 总 是 进位 ， 
此 1.5 舍 入 得 到 2. 而 4.5 的 售 人 却 为 4。 因 此 如 果 你 利用 一 个 格式 来 进行 舍 人 计算 
(例如 "多 .0f" )， 你 应 记 知 道 你 的 系统 是 和 如何 处 理 的 下面 的 国 数 执行 的 是 传统 的 
舍 人 ， 如 果 你 的 awk 的 Printf 进行 的 是 无 偏差 售 人 ， 近 或 许 是 有 用 的 。 


aWK 的 快速 参考 了 17 


# ounG 般 的 四 舍 五 人 

和 衣 站 已 ] 全 RaopbmnSs，arD1Qacr .lnlL .EU 

提 SuUh11m Dermazmn 

ICLTIOn -Duna'X， 1YBl， ya_， 开工 刀 CLILDI2 上 
ia -bfx) # 至 数 部 分 ， 用 25 0 载 断 
# 区 杰 有 小 数 部 分 
-FE Lival -- xl +# 注 有 小 数 部 分 


工 忆 LUTI 了 IIL 其 

2 
va] = - 革 井 歼 对 怖 
Juval = inmefasv]ll) 


下 这 Bt1LO = VB - 荆 Yl 
工 【trTactior >= -51) 
retLrn Intixl - 1] # -2.5 合 入 为 -了 


工 所 ELYA IDLETKI) # -了 .人 这 大 为 -2 
} 已 LSe 
Erackcion = X -wal 
全 荆 吕 人 丰 主 On >= .353)} 
工人 trLITD tvVal + 了 工 


中 
mh 





马上 与 所 


工人 二 LED vB] 








附录 三 
第 十 二 章 的 补充 


这 个 附录 包含 了 在 第 十 二 齐 “ 综 合 庶 用 ”中 介绍 的 程序 的 补充 程序 和 文档 。 


程序 spellcheck.awk 的 完整 清单 


# SPelicheck .awk-- 党 开 式 拼写 检查 内 

提 

# 作者 :Dale 26ugnerty 

间 

# 用 法 :aawk -f spellLceheckawk [+airr ] file 
# 用 spellcbecK 作 为 shel1 程序 的 名 字 

井 SPELLDICDT = "aicty" 

片 呈 PELUFILR = "El 


# BEGIN 所 作 完 成 下 而 的 任务 : 

# 1) 处 理 命 令 行 参 数 

划 2) 创建 蛋 时 文件 名 

# 3) 执行 衬 写 程序 创建 单间 列 喜 文件 
划 4 时 拓 用 睛 上 响应 的 列 去 


BEGIN 1 
# 外 地 命令 行 过 数 
井 必 姑 至 少 有 上 遇 个 矢 数 - -nawk 和 filenams 
f (1aRSC >1) 1 
# 如 果 多 于 购 个 和 参数， 第 一 个 参数 为 qiect 
if 《RaRGC >2) 1 
+# 和 铀 试 如 果 和 字典 被 指定 为 “+ 
# 将 aRGVII1 赋 纵 SPELUDICT 
IE 1ARGV[II] -~ ev+xt 


< 
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SPELLD2eL - AH 二 ] 
已 1 品 马 
SPFTTPTCT - "- PRGV 1I1 
# 洗 ARCeT21 缸 给 EFLE2DPTLE 
ShwLblIDE asOw[2] 
# 删 路 熏 数 ， 这 样 swx< 将 不 把 它们 当 企 安 件 后 开 
aelete aRovl1l] 
delete 上 Row [2 ] 
人 
# 不 多 于 两 个 锭 
Se 1 
# 将 文 性 mRGvLIL]1 赋 茹 SPELLE]LR 
3PELILPILE = 站 RGBW[T 
# 测试 本 地 休 筑 是 在 存在 
让 【1 SYStemn fcest -六 ace 1) 壮 
# 旭 果 存在、 询问 是 否 使 用 心 
PrimrefT (USE 1pcal Qicc 工 1 昌 ? Im) 
草 台 ImE TeEBIY < "一 
# 如 果 苛 禾 为 基 ， 性 用 “aict' 
iE replyY - YY] Tesh27h1 
SFPEDLDTCT = "- 电 斌 谤 上 
了 


1 
】 


}## 处 理 戎 数 个 娄 天 二 工 的 过 程 结束 
# 如 暴 套 数 个 烙 布 大 天 1， 于 冬 打 印 she11- 命 们 的 用 法 
上 Se 于 
PITIFt “USBSE: SPeLLCheck [+Qcc | fie”* 
尼 XTE 工 


} 
# 处 环 命 令 行 参 数 的 过 程 结束 
上 # 创建 临时 误 件 苦 ， 每 个 以 sp_ 开头 


WOxQJliLSL = "spP_ Ward1LiSEt" 
马 巴 BeJISGUTCS = "SP_input" 
SBREJL1ICUL = “< 户 HU” 


# 将 SPELDFILE 复 制 到 临 时 输入 交 件 


SYS+emi ec ”SPELLPIILE ” ” 占 PCcL1Lsource) 


# 现代 执行 拼写 和 伴 序 ， 将 输出 发 送 到 woralisr 
BrzinL "Rennlrg SPell checker .--， 
E 《SPELLDICT 
SPEDDCID = “ 芋 让 全 L1 ” 呈 PRDEDICT "" 
己 5 己 
SPELILCMD -= "SPeL1l " 
SYS TISPELDCNMD SPeT1LSDOTCE > ”WwWDzOList 


井 油 坛 草 启 列 考 ， 在 址 否 有 振 错 的 单 诸 出 再 
iT 【BYSLem Ti "二 est -gs ”Woraligst 1)， 


上 刘 果 单间 列表 为 人 1 或 拼 巡 命令 秋 败 ) ， 进 出 








”1 


4719 


420 





上 


诱 Fn “Na MISSBelTLeQ woras Ecouna- 


SYSTLe 员 人” 工 n 
局 其 工 革 


号 记忆 ISOUICE ”" 


woId1LISL， 


# 将 装 语 列表 文件 赋 给 zaRGV[I1] 使 得 awk 能 读 取 它 


ARCV1I11 


# 攻 轩 用 户 的 啊 谋 王 开 


[ESRonSLILSE 
工 所 当 PO-15 它 Li St 


-wpxraliSs 


“及 已 SDDSES 
TeESHPOISEDISL 


sm SEChangE each 已 CCUEEeTCE，" 


”An ACECGLDOPaL chanmSge。" 


工 已 SDDSEL3 SEE 二 全 与 甩 吕 SELLSt ”NT SA 二 训导 避 Di 本 " 
FESPORSEDISE =- YeSPDorSseLisL "AT YEHelIED，， 
YESDOTSPDTLSL = 上 避 3 吕 DTSEDISE "YI 人 ai 

工会 写 且 马 世 避 人世 计 各 L = 工 生 汪 有 DSSEDiSE ”TEA 廊 衣 二 口 gmnDre: 
PT 荆 1 "各 台 上马 SPDmsELISt) 


}# BEGTK 过 程 结束 


f 主 过 程 ， 处 理 单 间 列 表 的 每 行 。 
组 目的 大昌 中 拼 错 的 单词 并 棍 示 用 户 过 行 适 当 的 处 理 。 


# 设 填 拼 错 的 单 过 
ITSSBB]1ing 可 = 训 - 
TesPon35E = 工 
++WCF 了 了 

上 + 打印 拼 镑 的 单词 并 提示 用 户 呈 应 


While (FeSspons 呈 ~"[CCSGaahHaIQG ])v 8 ) 
inTE TY 往生 呈 - Reunad 和 3 人 2AGAa7HARA)  ，wcrd，misspetLing) 
可 后 荆 全 工 全 EDPom5e < "一 
} 
遇 在 处 理 咱 产 的 啊 应 
# CR- 加 车 表示 忽略 当前 的 单词 
# 帮助 
荆 【TeSPOonSsE ~ “ [HhlielR)3?37) 1{ 
# 最 未 啊 应 列 表 六 再 给 出 本 页 
BITrInt Tt "名 5"， 工人 SPOmSELi St) 
让 并 站 上 二 二 针 避 -Betang 虽 E 人 /人 届 和 站 二 woxza， misSsPS1L1LTLnS) 
号 et1imc 工 4SPCHnhSeE < "-”" 


全 


} 
# 进出 
IE TFTesponse ~ [QQG] (uiL1237 人 Xit 
# 添加 天 字典 中 
LE 【FeSBPomSse ~ [altcclyry 1{ 
要 开 妆 二 [++ 刘 etRTLETY = 中 工 总 马 折 扣 ] 工 并 rm 可 
} 
f 对 每 个 册 现 的 部 进行 修改 
iT (fiespeanse ~- ， [TcC] hangel?>7) 1{ 
# 读 取 收集 的 文件 的 每 一 行 
了 已 WS 巧 LinS = "3 changes = " 
Whileri 总 etline < SpellSscurcel > 日 ) 【 
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寺 调用 霄 数 刀 二 包含 拼 错 单词 的 行 

# 于 捞 示 用 户 对 每 个 进行 更 止 
Take_CharGeTSD) 

# 所 有 行 被 加 人 到 临时 和 输出 文件 


BEILRnt > SPelL1louL 


】 

# 所 有 行 破 读 屯 

# 天 装 临 时 输 六 和 临时 输出 文件 
C 白 S 呈 1 SEO 扣 LILCUEI) 
妇 1 台 9 和 13PEEL TSOUEC 它 } 

# 友 采 全 了 修改 
IE 【changes) 1 

# 显 泉 灾 管 故 的 行 
For 人 3 = 1 <= changesy ++j) 

所 上 工具 1 们 也 忆 亲人 局 DIES TD 

PTIntE (gmnes changea Changes) 
+# 符 保 存 前 执行 确认 
ConEtirnm_cbaangesil) 
机 





】 
# 全 局 糙 可 
守 《和 SPOmneE ~ [0]1Lopall2371 二 
# 调用 贞 数 来 提示 更 正 并 显示 每 个 
# 被 修改 的 行 ， 
# 请 或 用 只 在 保存 前 磋 认 所 有 的 修改 。 
make_ 避 1Lnbal_Phangsr) 
】} 
}# 二 过 简 结 束 


MD 过 程 使 所 艇 的 修改 或 为 隶 久 性 的 。 
它 寿 上 插 原始 的 文件 并 特 单 启 

斌 加 到 字典 中 。 

它 也 噜 除 临 时 文件 。 


六 井 阳 六 


END ! 
# 如 果 我 们 和 到达 这 时 只 读 取 了 -个 记录 ， 
# 狼 有 做 修改 ， 孝 篆 进 出 。 
f INR <= 1) exit 
# 用 户 必 须 对 保存 更 正 的 文件 苔 出 确认 
While fsavearswer !~ “fyY]ies)2y tn ]e2)7 ) 1 
BITDT "Sawe COFIeS 上 Iong 1 贡 B wa "， 呈 PELDRTILE 
可 局 上 了 工 襄 折 只 号 VeaATISWEE < 


和 
# 如 果 问 答 是 ， 著 么 将 临 半 输入 交 件 转移 到 3PELLFILE 中 
# 保存 介 的 SPELEFITEE 设防 万 -- 
EPE (SaveaTSwer ~ lyY]17) 1 
SYSBLem CEB 1 SENSETTFTLE ”SRELLPITLILE "，-oYIS') 
SYSLemf mV ”SPeLLSDOuUICe ” ”上 PETLLEIELGBI 


了 
# 记 果 问答 为 不 ， 坟 么 期 除 临时 输入 文件 
E 【8aVeRarSwer 一 ya [ny 
SYSELET "II ”SeL-SOUTCE) 


22 





丰 记 果 单 训 己 经 被 添加 到 字典 中 ， 
直上 时 乞 检 示 才 户 确 认 保 存在 当前 他 典 中 ， 
1T 132ek2nEzyl 
Drincf "Maxe Changes 二 CC QicLiconaryw 才 3 
和 全 LT ii 【 呈 =EOSB = 
1 【ITesDorse -or 工 
+# 记 采 性 右 指 定 字 典 -于 么 用 “dic=” 
iT 【1SFRLDDTCT) SFEDDDICT = "33ct" 


4 通 矶 数 红 并 糙 单 词 党 加 到 字典 中 
SUBPInY ”SEELLDICT 
For 1 em jr Qict ) 
DPIinr Qicrlzrem | >>= SoELDDICT 
Lase1SEPELLDICTI 
上 对 字典 误 件 排序 
呈 VWSteTm II SOLTL SPELDDICT > 上 tmp ict 1 
SYSEemLIIZ ”tmp diet ”SEEULDJICTI 








了 


| 
上 聘 除 半 词 列表 
Sy&emT TYm RD_Wwora2 ie- "1 


}】 # END 过程 结 束 
# 图 数 的 定妆 


make-cnange -- 提示 用 户 对 当前 输入 行 中 的 拼 呈 错误 
和 有 赴 行 更 焉 。 调 用 ' 攻 和 白 岂 找到 证 
符 册 中 的 其 他 错误 
SFrinceTochang -- 初 始 为 人 和. 因此 和 150 的 子 遇 和 了 叱 配 
Jen -从 $0 开始 到 被 匹配 字符 中 的 末 必 的 长 度 
假定 已 经 定 浆 了 拼 2 错 误 ， 





厅 间 书生 间 砷 


EumctIon make_change (stringTochange，1Len， + 参数 
Tine，CRmaKeCchange，DeiImLSLEIIIIO， 亡 呈 FGLS) # 局 部 的 
{ 
上 # 在 sc=ingTrochange 由 号 配 拼 错 的 单词 ， 否 则 什么 地 不 微 
tiE 1 matehtstyringTochance，TmYSSDPel imnS) 1) 
# 量 朱 匹 本 的 行 
PEFiIIESLtLIIS = 号 0 
导 SUbTeSEA，”“，iPzincstIIHzgI 
Drinr princstrtrino 
人 已 TeLS = 
for ( = ]， 了 < RENGTH ++i) 
人 C 记 荆 和 上 富 人 二 所 芋 台 “" 
It 【Lenl) 
FMT = "和 ”enm+RSTRART+TRDENMGTH- 之 “名 " 
忆 号 已 
FM = “和 扼 ” RSTETART+REENGTH-1 "Sn" 
TiE 【PT ， 忆 志 芋 扎 切 呈 上 
# 刀 果 疫 有 定 浆 、 枢 示 用 户 更 目 
工夫 全 ww 入 尼 工 LDn3) 工 
BEimntE ”Char 如 所 七 Dz 
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娃 总 上 二 瑞 二 下 RwRT TIDn 富 二 “一 


直 川 车 表示 忽略 
鼎 如 此 用 六 输 和 人 晶 正 ， 并 三 这 
wmEile newaPe7LiInO 苹 立 上 DKmaxecharioec1 工 
FLRLT Change 和 B 放 训 3 yn TIRSDPSLLinS，， newspal1Lnoa) 
3etl1ire xmakechange =- “一 
TaoqechF 村 - 
井 测 jj 武 呵 忆 
1 【CHKmaKECRDaDmCe 一 LIYY]TISS) 2 1 区 
# 做 修改 ! 上 只 在 第 一 次 明和 到 时 ) 
Imaciecng =- subltmisspellingqg，newspelLlLinog，str2noTocharncecy 
1Se 2 1 DFIaKECharmnge ~ 7 [oz 
# 提供 重新 更 目的 机 会 
Princt “ChanSe 1 
可 DIE TIEwSbeeilLLnS < “一 
世 KIYI 六 KeCh anS 忆 = "" 
了 
}》 4 while 寡 环 结 市 


# 旭 | 果 en 为 贞 ， 则 处 理 s0 的 子 趾 
EL IlLen' 1{ 
# 站 它 进行 汇编 
ne = Subpstr1S0 1 Len-ly 
5 = JLzne StrinaTorhange 


上 
局 13e 工 

3 -= 名 EtILOTOCDaSmSe 

衬 下 《下 闫 有 宙 本 十 十 仑 中 忆 也 可 局 台 
了 


# 将 修改 过 的 行 放 人 茧 数 纠 中 以 备 昂 示 
守 (maaechgy 
changSeesLines[Ichan3Sesl == "> 50 
# 创建 后 串 使 我 们 可以 和 其 他 情况 相 旺 配 
LeEnm += RSTRART + RENGTR 
Eartl - &Uphetrt30，1，1Len-11 
Parta - 引 ubbstrfgD，1Leri 
# 余下 的 部 分 中 ， 是 秋 存 在 拼 错 的 单 启 


的 KE_ 谤 hamGe (E 上 上 写 ， 工 生 ml 
} # 让 结构 结束 
) # 国 数 make_snange 们 结束 


井 make. 号 1ODPa1_change 一 - 


提示 用 户 对 所 有 拭 错 的 行 
# 进行 多 局 修改 

8 没有 套数 

4 傻 定 忆 络 定 叉 了 棋 写 铺 民 
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下 IC 蕊 工 丫 人 ， 世 二 K 忆 可 荆 己 巴 汪 _ 妇 科 妈 世 让 咎 ， TiEWSDE] TID 可 ， OKakECchan 训 后 ， Chameesh 


# 提 导 由 户 对 当前 拼 错 约 单词 进行 更 目 
工 IT 上 “站 1DDE 二 LI1Y 它 hanmg 扣 十 口 : 
日 已 L] II TewsDel1ing = "一 


# 喇 革 表示 忽略 
# 旭 黑 有 加 和 葵 ， 确 以 
VTS 用 生 1 1 下 】 站 Kmakechangel 了 
PTTInEE 1 " 问 ]DbDa11Y Charnge 3 上 DO SS YAn) :  ，misspelLltnc， 
mewrs 包 二 LI1LILn】 
名 已 七 了 并 站 BT 疝 其 全 BnLG 二 “一 
# 向 | 试 啊 应 开 敌 修改 
守 【CCKmakechanoge ~ ”TYyY]1esl?7) 1 
# 打开 文件 ， 夸 本 所 有 的 行 
WW 且 了 已 【 《《 训 息 攻 了 E < 3 有 有 TSDOUECE > 下) 夺 
# 如 果 找 到 匹配 ， 用 
# Sa1sb 做 旗 改 并 打印 每 个 被 伴 改 的 行 。 
if 1SD ~ misspel]ingl)) 《 
maqdechg = gsubinjisspell1ir 可 ，Hnewspbelling) 
PE "> ，SD 
changes += 1 # 计算 修改 的 行 数 
] 


+ 将 所 丰 行 号 人 量 时 输出 文件 
Print > BEPe1llout 


》 +# 读 取 文件 的 while 撕 环 结束 
# ” 美 闲 临时 文件 


习 1DS 所 TSPeiIOULtI 
尼 本 阁 呈 王 【 生 此 各 与 DUEC 全 】 
# 报告 修改 的 数 竹 
BEEIDtE 【7" 负 昌 ines changea-'，CehangeSs) 
非 unetior 七 口 CDmEIrm before Saving changes 
忆 扬 下 1 FTCHanSSST) 
} # if (OKmakechange ~Y)1) 结 率 


# 如 果 更 正 宙 有 被 确 庆 ， 提 示 输 和 新 的 单 计 
已 LS LE 【DRmakechange - [ng]o2? ) T 
EBPFimtE "GTIopallyY caange to: 
包 EDne DewSPeT1Ling 之 "-， 
DRKmakechange = “" 
} 


}# 提示 用 户 进行 更 正 的 wmile 循环 结束 
]} 霜 国 数 make_g1lcbal_change 1) 结 昌 


#_ cenEirm_eharmges -一 


# 在 保存 和 修改 之 前 喘 认 


fneEIOT ConEiIETL hamges it savechangea ) 1 


+ 在 保存 禾 改 之 前 得到 用 户 确 认 
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While 【1 33VEchanmnges 
PEImtE 【Sayve hangesz TY ) 
站 iT 旺 WwEChaTIEES 二 “一 


上 
# 如 果 人 确 让 ， 用 输出 伐 民 输入 
了 工人 【号 己 W 手 的 站 IE 日 ToY ] esl937) 


总 YS 七 Ermi mw SPEeLLCUL ” ”SPCL1LSDUECC， 


masterindex shell 脚本 的 清单 


书 17bImy7 sh 

井 二 .了 -了 7 9730 

PASTER= 

下 工 工匠 号 = ”“ 

号 GEE=”" 

FORMRAT=1] 

了 着 主 以 亡 工 R= WOIAY 三 所 QQawk 7 aawKY 于 也 中 马 区 
# TNDEXDJIR= ”wmDrK7 InGEX 
TNDEXMRCPIR- WOTK7 maCIOSACUTYEeT 
# 对 所 有 可 用 的 从属 的 柜 块 语 加 检测 z 能 
号 忆 etMNUIPer=1 


USeMNuUrmber=1 
While 「 "SS#” 1= 0 ao 
安 是 BE 1 也 
-mmY)} YaSTER=" TRUE" ; ; 
【圭一 乌 1 3 全 CNUIRPDET- 台 1; 
二 SectMames=517 ugCNUICeT-= 吕 7 
-Er*) 下 主语 = “了 及 蝇 下 "7 
一 S*) RDRMRT=D; 
一 三 】 SCh 训 SS1L1 "is moDt 且 Ya SCUreGnt :7 了 
) if [-E 3S1 ];， then 
FLobS= SFTLES 1 
如 了 全 已 
从 CmD “站 二 4 下 计 工 二 也 所 上 Eur 
EL7 7 
司 各 己 灾 
SHIit 
记 On 扣 
f FE "SFIDES” ~ ””]7 then 
台中 hiB “ 下 ] 后台 折扣 ”号 UH 区 1 邮电 1 于 关 Lenare . 
已 X 工 七 
王 工 
E [ “5$MRSTER' = "二 he 
下 记 立 其 1m 记 PILES 
dc 
了 [ “SU 古 辣 MuInier” 1= 身 ] 7 beP 
TOmaNuUm = IANADEXDIR7Tcmanum 二 皇马 Ct 林 UinbeT 
已 WK ， -下 
NE =- 1 TRrint sD 】} 


和 mrrerraae et -一 -一 -一 一 一 一 一 
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雪 





MP > Trinr 5 ”wolume 了 
4 1T 折 一 妆 王 DD 上 到 wm 三 汪 TD 1 区 呈 区 
SPetNLTUDeT -之 XPE SECtMuTbeIT +1” 


已 工 吕 避 
站 
NE -= 二 上 Spinanel11st，mames，"，)]7 
Vanme = mamnec53 [velune] 上 
YE -一 ”人 Przinc 5 上 
xXPFR TDrint &SD " :woLnanmne 上 } 


但 吕 ITT 忆 = 必 且 全 CC 二 的 了 am 二 St 一 总 SC 廿 MaaITES 太 世 二 > LITP TI 已 茂生 g 
ecLNJTPBeT- exnTr SSecrMUmper 





中 DIE 
民工 二 下 呈 - LE 一口 对 二 区 守 训 " 


1 "PAGE TI= '，] then 
记 工 同 DIE 藉 也 工 民 ， 吕 忆 可 后 .LOQX SFTIRS 
避 区 1 工 


NDEXDIR， nputL .qdqx sFITLES | 

tf -haf -=: 10 -1 1 -2 .3 -4 2n -3n | unige 
NDSXDTYRAPaSenosraiax | 

INDEXDIReombine .iax | 

NDEXDIRy forma -~ .iax FMT=4FORMRT MACDIR=SIRKDEXMRACDIR 
fenCEXSS ;Le 

IT tm 7 maQexSs 


2 
1 让 
忆 








masterindex 的 文档 


这 些 文档 和 下 面 的 注释 是 由 Dale Dougherty 提供 的 。 





Masterindex 一 一 生成 单 册 或 多 卷 索引 的 索引 程序 。 


提要 


masSLerinaecX [-mastLez [vcLune]] {-Raoes [=-Screenl [tilenarme. -] 


司 用 说 明 


maasieminadex 根 据 由 tra 太 输出 的 结构 化 索引 条 目 生成 一 个 格式 化 的 素 引 .除非 对 输出 


进行 重 定 向 ， 要 则 结果 将 显示 到 屏幕 上 ， 
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件 中 、 县 奖 件 名 应 岐 依次 给 出 ,如果 第 一 个 文件 不 是 第 一 参 , 那么 指定 一 个 卷 号 作 
为 单独 的 参数 。 这 个 着 叶 被 转换 为 -个 岁 马 数字 ,并 被 语 加 到 该 文件 的 索引 条 日 的 
所 有 页 码 之 前 。 








-或 -page 为 每 个 页 码 生成 了 :个 索引 条 日 列表 。 它 也 呀 用 于 防止 条 日 的 硬 乒 贝 。 


-4 或 screei 放 于 表示 未 属 式 化 的 索引 将 此 显示 在 “屏幕 ” 土 。 黑 认 时 指 准 备 的 输出 
中 包含 用 于 格式 化 的 tre 闻 宏 ， 


文件 


AGREESIE TREE 
ZiprApinApage iT 
AD7 丰 ipagermaMrRi ia 
ADrEADiAComDine -idgr 
ADrpinApratiax 
ADFEAinroftaie id 
AD7 可 衣 AprmGmEE 


ADPREAGCFDSACRPPEREAEPEEE HGCS 


参阅 
注意 这 些 程序 需要 “nawk”( 新 的 awk): nawt( it 和 sedlV)。 


缺 政 


这 个 新 的 索引 程序 是 模块 化 的 ， 它 调 用 了 -系列 的 小 程序 。 这 冯 许 我 们 连 粮 不同 的 
模块 来 实现 新 的 功能 ,并且 可 以 更 容易 地 扳 立 和 修复 问题 。 索 引 条 目 不 应 该 包含 任 
何 Fre 序 字体 更 改 。 这 个 程序 没有 解决 它们 。 大 于 8 的 罗马 数字 不 能 被 正确 地 排序 ， 
因此 只 鼠 于 8 本 书 索引 【这 个 排序 程序 对 罗马 数字 1 ~ 10 按 以 下 顺序 进行 排序 : I 
JI、IHI、]JV、IK、V、YVI、VII、VII、 茂 ) 。 





必 
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背景 细节 


Tim O'Reilly 推荐 说 The .Joy or Cooking(jofC) 素 引 是 一 个 理想 的 索引 。 我 彻底 地 
检查 了 Jofc 索 引 , 并 打算 编写 一 个 包含 它 的 所 有 特点 的 新 的 索引 程序 。 我 淮 有 爹 部 
复制 Jofc 的 格式 ， 但 如 果 想 做 这 是 很 容易 做 的 。 请 你 观察 Jofc 素 引 并 亲自 检查 它 
的 特点 ， 


我 也 努力 做 一 些 其 他 事情 来 对 前 面 的 索引 程序 进行 改进 ,并 为 个 人 编写 的 索 导 提供 
更 多 的 支持 。 


索引 编码 条 目 


本 节 介 绍 了 在 文档 文件 中 索引 编码 条 目 。 我 们 用 .XX 宏 来 给 出 文件 中 素 引 条 日 的 位 
置 。 最 简单 的 情形 是 : 


-六 “了 本 


如 朱琳 目 由 主 排序 关键 字 和 次 排序 关键 宇 组 成 ， 那 么 我 们 可 以 搂 下 面 的 方式 编码 : 


.XX “PTiIImarYyY，SEComnGarY" 


过 号 将 两 个 关键 字 分 隔 开 。 我 们 还 用 一 个 .XN 宏 来 牛 成 没有 商 码 的 “see” 引 用 。 它 
按 下 曾 的 形式 定义 : 


.AN "entry 13ee aoOtherRntEEY1 


这 些 编码 形式 继续 按 它 们 自己 的 方式 起 作用 , 而 masterindezr 利 用 3 个 级 别 的 关 雏 字 
提供 了 更 天 的 灵活 性 ，3 个 关键 字 为 : 主 关键 字 、 识 关键 字 和 第 三 关 健 字 。 你 应 读 
按 下 面 的 形式 定 交 条 日 : 


.入 “入 工 并 Pa 入 1 各 全 安 mi 林 六 EYi 上 已 zt 上 二 忆 上 


注意 , 逗号 没有 用 做 定 界 符 。 用 愤 号 将 主 条 目 和 次 条 目 分 隔 开 ， 用 分 号 将 次 条 目 和 
第 三 条 目 分 隔 开 .。 这 意味 着 在 这 个 语法 中 喜 号 可 以 作为 关键 字 的 一 个 组 成 部 分 。 但 
不 必 担 心 , 你 仍 可 以 利用 逗号 来 分 隔 主 关键 字 和 次 关键 字 ( 要 知道 在 一 行 中 如 果 没 
有 发 观 冒 号 定 界 符 , 第 一 个 喜 号 被 转换 为 一 个 冒号 )。 我 建议 在 新 书 中 利用 上 面 的 语 
壮 来 编码 ， 即 使 你 只 给 出 了 主 关 键 宇和 次 关键 宝 。 
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另 ,个 特点 是 当 利 用 代 字 号 【~) 作为 定 答 符 时 , 可 以 将 主 关键 字 和 次 关键 字 进 行 转 
换 。 请 看 下 面 的 条 日 





-其 叶 “SECCinnlana 
该 条 目 和 下 面 的 两 个 条 日 是 等 价 的 ; 


.XXX "eat Cormmana 
.其 全 “ 亡 训 mman 吕 : 引证" 


你 可 以 将 次 关键 字 作 为 主 条 目的 一 个 分 类 (命令 、 属 性、 函数 等 等 )。 注 意 不 要 特 这 
帅 个 站 倒 了 .因为 “command cat” 没 有 太太 的 意义 。 村 在 一 个 条 目 中 使 用 代 字 符 ， 
请 输入 “~ 一 。 


我 语 加 了 一 个 新 宏 .XB， 除 了 索引 条 目的 页 码 在 输出 时 以 粗 体 显示 ， 用 干 表 南 它 在 
某 个 范围 中 是 最 重要 的 外 ， 其 他 和 XXX 是 一 样 的 。 这 有 一 个 例子 : 


-XB “eat 它 记 rataanma" 


当 ire 疗 处 理 这 个 索引 条 目 时 ,， 它 输出 带 有 星 号 的 页 码 . 这 就 是 当 输出 显示 在 屏幕 上 
时 的 格式 . 当 对 5ra 六 格式 化 编码 时 , 页 码 用 棚 体 字 转 义 序列 包围 。( 顺便 说 一 下 , 在 
Jofc 索引 中 ,我 注意 到 它们 人 允许 在 罗马 字体 和 烛 体 字 中 有 相同 的 页 码 ,) 另外 ， 这 
个 真 码 不 能 组 全 到 多 个 连续 页 码 中 。 


Je 人 索引 的 另外 “个 特点 是 第 一 个 次 关键 字 和 主 关 键 字 出 现在 同一 行 . 老 的 索引 程 
序 将 次 关键 字 放 在 下 一 行 .用 JofC 方 式 的 -- 个 好 处 是 当 条 目 只 包含 一 个 次 关键 字 时 
可 以 输出 到 同一 行 , 所 以 更 易 读 。 因 此 , 你 应 该 由 “ 行 整 版 , 清晰 度 ” 而 不 是 由 “ 清 
晰 度 ” 来 排版 下 “ 行 。 下 一 个 次 关键 字 将 被 纳 进 。 注 意 ， 如 果 主 关键 字 作 为 单独 的 
条 目 存 在 (有 与 它 相关 的 页 码 ), 这 个 主 关键 字 的 页 码 引用 将 被 输出 到 同一 行 , 而 第 
一 个 次 条 目 将 被 输出 到 下 一 行 。 


再 次 强调 ， 尽 管 三 级 条 目的 话 疲 不 同 ， 但 以 下 索引 条 目 是 正确 的 : 
.XE "ine justiEicatlLcon，Oetinikior cf" 


它 也 将 产生 相同 的 结果 : 


.XXS "InE jastificaczon: aqetinition 于" 


1 -ri 列 lee PutrrrrriimaL 和 人 一 一 一 一 


名 
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( 层 号 在 输出 中 不 出 现 。) 用 类 似 的 方法 可 以 编号 下 面 的 条 日 : 


-XXX 2DSYTITISaL1orL，Lines，5etineaq 


XXX “jaSLL ICELYGOP: ince，derined" 
这 里 在 “1ines” 和 “justification” 之 队 的 逗号 布 是 作为 定 界 符 ， 而 是 作为 次 关键 字 
的 “部 分 ， 
前 面 的 情 子 可 以 写成 具有 二 级 的 . -个 条 日 

其 其“USLTECaLtion: 1inesy Qef2Tea' 
这 里 的 分 号 将 第 三 关键 字 分 隔 开 。 这 个 分 号 和 关键 宇 -起 输出 ， 并且 有 多 个 第 三 关 
键 字 将 跟随 在 次 关键 宇 的 后 面 。 


然而 主要 的 任务 是 为 所 有 的 主 关键 字 .、 次 关键 宇和 第 二 关键 字 收 集 页 码 , 因此 可 以 
按 下 面 形式 的 输出 : 





justieLcaLion 4-3 
me 吕 五 7 Re 主 LPREO。， 5 


输出 格式 


我 想 做 件 前 面 的 程序 股 有 处 理 的 事 ， 即 生成 -个 没有 treF 关 代码 的 索引 。 
masferindex 有 3 种 类 型 的 输出 ; troe 太 、scereef 和 page。 


台 认 的 输出 是 利用 rre 闻 { 通 过 Jat) 来 产生 的 . 其 中 包含 宏 ， 这 些 密 被 定 交 在 Amorg/ 
macToscrrrerwindexrmacs 中 .这 些 宕 应 该 产生 与 前 面相 同 的 索引 格式 , 它们 大 多 数 
直接 通过 fra 痛 请 求 来 完成 。 以 下 是 开始 的 上 几 行 : 


名” 名 站 贿 七 馈 工 工 生 村 昌 式 安 世 看 本 

DTDT 上 ASRTOSY CUEITeAEY InnacS 

:SB “ImGeXx 

-区 安 

.KRF 对 “有 

;XEF 了 “站 记 D 工人 且 5 让 PS 3 上 rckUTG DEF 了 BrOSEam 1 
,XR 1 “BtLFLhburea， 风 INM_CONSJME_ 有 BD_EVENTS 13" 
,XPR 用 “网 IN_CORSUMNE_RSTCK_ 记 VEHNTS 13" 


第 十 二 章 的 补充 


了 





NXP MOTIFY_EWwSNT PROC 137 
-其 PR 了 "XW_ ERSDR PRO 1 
,AP 3 "XINT aaRCC_EPTR_ARGVW 535， 


顶部 的 琴行 应 该 是 显而易见 的 : .XC 宏 产 生 多 卷 输出 《对 小 的 书 它 将 输出 两 卷 。 用 
参数 来 指定 人 卷 的 寅 度 是 不 够 灵活 的 , 但 这 时 必须 这 样 处 理 )。.XEF 宏 的 第 一 个 参数 有 
3 个 可 能 的 值 。 :个 “A” 表示 第 一 个 参数 是 :个 字母 表 中 的 字符 , 应 该 作为 分 隔 符 
来 输出 。 -个 “1” 表 示 第 一 个 参数 包含 个 主 条 日 。- :个 “2” 表 未 条 目 以 一 个 次 


条 口 开始 。 


当 必 用 -* 参 数 调用 时 ,这 个 程序 将 叭 备 在 屏幕 上 显示 索引 (或 作为 ASCl1I 文 件 打印 )。 


这 里 有 几 行 : 


全 “I 担 万 所 下 广 卫 胡 斌 E -日 ChD 寺 
多 
灵 甩 下] 妆 站 LILOnS， StTUCEUIEG OF 2 Drograrm 1 
忌 Etr1LBUEE， IN_CDONSUNE KBD_PVEKTS 【3 
中 工 W_COSTIAP， 本 己基 FwWRIMT 号 工 3 
欠 IM_NOTIRY_EVENT_PROC 13 
XV_ERROR_PROC 14 
XW_INIT_ARCC_ETR_ maRCW 曲 ， 扣 
XVW_ITNIT_ARGS 
XUW_USPRSE_PRDC 日 


显然 ， 这 对 快速 验证 索引 是 有 用 的 。 第 三 种 格式 也 可 用 来 验证 索引 。 


将 提供 索引 条 日 的 释 页 列表 。 


上 m&Bterlnaex -~ 巧 cho1 

PaS 吕 荆 
SIUCEUITE DEF XWV3eWw PEP1ILCatioIS 
筷 站 折 1 CSTIORS， 中 t 工 HeWTe 总 十 工 口 昌 工 各 下 
区 WeW 互 BB1 ICatIO 了 TS 
XYWYTLew abB11ications，SErtcture DF 
入 WwW 工 忆 七 已 工 上 己 女 台 
Compilamg Xew PEIOGTaIS 
XVILew，ComPILIn9 BRZCSFamS 

EaSe 之 
其 ViILew 工 ibTarI 侠 S 


编辑 一 个 主 索引 


用 -PP 来 调用 ， 


通过 指定 -mm 选项 可 以 调用 多 卷 主 索引 。 对 于 特定 卷 的 每 组 索引 条 目 必须 放 在 个 单 


独 的 文件 中 。 


和 


332 - ， 附录 





号 加 吾 月 七 斌 Index - 贡 -日 hoOoKT hooxk3 hocok3 
x_imnizT yy》 Drocedure TI:d ITJTTzS 
XW_TMNITL ROC_PTEF_ ARGWw Bt 二 工 Lbute TT:b ,请 
XW_IMNIT_ 站 RGBS 届 LLE Dute 工 : 折 


必须 以 连续 的 顺序 来 指定 文件 。 如 果 第 一 个 文件 不 古 第 一 着 , 你 可 以 用 相应 的 着 号 
作为 参数 。 
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